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ESTADÍSTICA GENERAL 


Orientación General del Curso 


Para intervenir eficazmente en los sistemas que manejan, los profesionales de las ciencias 
agropecuarias y ambientales deben poseer y desarrollar habilidades relacionadas con la 
obtención, análisis e interpretación de datos mediante métodos cuantitativos. Estas habilidades 
son esenciales para interpretar críticamente la información científica y técnica disponible así 
como para evaluar la estructura y el funcionamiento de los sistemas a manejar y los resultados 
de las intervenciones realizadas. Una característica intrínseca de los sistemas naturales más o 
menos intervenidos por el hombre es que su variabilidad espacial y temporal introduce 
incertidumbre en relación con sus características y su comportamiento. En este sentido, los 
objetivos de este curso son desarrollar en los alumnos: | 


la conciencia de esa incertidumbre y de la necesidad de medirla, 

la capacidad para medirla, 

la habilidad para manejarla para la toma de decisiones y l 

la capacidad para leer información técnica publicada en medios especializados 
con capacidad crítica en relación los aspectos metodológicos. 


Duración del curso: 16 semanas 
Carga horaria: 5 horas por semana (2 de clases teóricas y 3 de clases prácticas) 


Régimen de aprobación 


Asistencia mínima obligatoria: 75 % 

Evaluaciones: 

e Trabajo domiciliario (10 puntos) 

e Examen parcial (30 puntos) 

e Examen integrador (45 puntos) 

e Ejercicios para resolver en clase (parcialitos) (15 puntos) 


Condiciones para aprobar por promoción: 


Cumplir con la asistencia mínima obligatoria 
Presentar el trabajo de seminario en tiempo y forma | 
Acumular al menos 70 puntos entre los dos exámenes y los parcialitos y trabajos domiciliarios 


Condiciones para obtener_la condición de alumno regular: 


Cumplir con la asistencia mínima obligatoria 
Presentar el trabajo de seminario en tiempo y forma 
Acumular al menos 40 puntos entre los dos exámenes y los parcialitos y trabajos domiciliarios 


Los alumnos que no aprueben por promoción ni alcancen la regularidad quedarán en condición 
de libres. 
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ÍSTICA 


INTRODUCCIÓN A LA ESTAD 


Estadística: la ciencia de la obtención y análisis de datos. 


En las ciencias agropecuarias y ambientales nos encontramos con situaciones 
que se presentan como un problema a resolver, un profesional que debe abordar 
la tarea y un conjunto de herramientas de las cuales podrá valerse para realizar 
su tarea. Entre estas herramientas se encuentra la Estadística con todo su bagaje 
teórico y metodológico. | | 

La teoría estadística se apoya en la Matemática de la cual puede 
considerarse una rama y los métodos estadísticos son las herramientas que el 
ingeniero puede usar para responder preguntas tales como ¿a cuántas personas 
debería encuestarse antes de una elección como para poder hacer una predicción 
válida del resultado de la votación? o ¿cuál de varios herbicidas es el más 
recomendable con vistas al control de una determinada maleza de los cultivos de 
maíz? 

Ahora, ¿cuándo será necesario recurrir a los métodos estadísticos? Los 
métodos estadísticos serán. útiles en todas aquellas situaciones en las cuales 
deban tomarse decisiones. o hacer elecciones O emitir opiniones bajo 
incertidumbre. Es decir, dada una determinada cantidad y calidad de 
información, debe decidirse el camino a seguir y para ello, la Estadística provee 
los elementos necesarios para que esas decisiones puedan ser tomadas en forma 
racional. A su vez, el grado de racionalidad de las decisiones estará determinado 
por la calidad y cantidad de teoría y de la calidad y cantidad de métodos de 
extracción y análisis de la información de los que se disponga. En este curso 
elemental e introductorio, expondremos los elementos básicos de la teoría 
estadística y de los métodos que se sustentan sobre ella buscando, en todo 
momento, enfocarlos sobre las aplicaciones prácticas más comunes en la 
ingeniería agronómica. : 

La situación más común en la que el ingeniero suele encontrarse es 
aquella en cual dispone de un conjunto de datos extraídos de una masa de 
información mucho más grande y, probablemente, desconocida y de los cuales 
debe obtener algún tipo de información específica que responda a sus intereses O 
interrogantes. Las dudas o interrogantes estarán referidos, la inmensa mayoría de 
las veces, a una población grande — y por “grande” estamos entendiendo que la 
población está compuesta por una cantidad de unidades inabarcable por parte del 
analista — y de la cual deberá extraerse una pequeña cantidad de unidades 
denominada muestra. © E 

Podemos definir a la población como un conjunto de elementos físicos O 
conceptuales acerca de los cuales se desea extraer información a través de uno o 
más procedimientos. Por ejemplo, todas las plantas de álamo en explotación 
comercial en el delta del Paraná. : 

Por otra parte, una muestra es e/ conjunto de unidades experimentales 
realmente observadas o consideradas en un procedimiento de extracción de 
información. Ejemplo: un conjunto de 50 plantas de álamo que fueron observadas 
en una dada localidad del delta del Paraná en un momento determinado. 

- Finalmente, una unidad experimental es la mínima cantidad de 
elementos de una población pasibles de ser observados o considerados en un 
procedimiento de extracción de información. Ejemplo: cada planta de álamo en 
explotación comercial en el delta del Paraná. l 

-En la población está contenida la masa total de información que sería 
deseable (pero, quizás, imposible) conocer totalmente. En la. muestra, está 
contenida la porción de información que resulta posible conocer enteramente (los 
datos) y que servirá para, métodos estadísticos mediante, deducir. o conjeturar 
cómo es todo el resto de la información de la población. A veces, se conoce toda 
la información contenida en la población. Se trata de poblaciones pequeñas o de 
poblaciones que, aún siendo grandes, admiten, por una u otra razón ser 
accedidas por el investigador y, por tanto, en esos casos, puede conocerse toda 
la información y no es necesario tomar ninguna muestra, sino que, directamente, 
se realiza un censo de toda la población. os 
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Tanto la información contenida en una muestra como la contenida en la 
población total estarán referidas a una o varias magnitudes o variables y pueden 
ser reducidas o resumidas por una o unas pocas medidas que las representen, 
Es decir, comúnmente, no es necesario conocer todos y cada uno de los valores 
de las variables de interés sino que bastará con conocer solamente: alguna 
medida resumen de ellos. Las medidas resumen que se calculan a partir de los 
datos de la muestra se denominan estadísticas o estadísticos y las 
correspondientes medidas de dichas variables en la población total, se 
denominan parámetros. 

La primera sección del curso se dedicará a exponer los métodos de 
organización, presentación y descripción de los datos. Es lo que se denomina 
Estadística Descriptiva. Luego, para el caso más general en que no se puede 
acceder a toda la información contenida en la población, para tener la posibilidad 
hacer conjeturas o pronósticos acerca del resto de la información, es decir, acerca 
de los parámetros, será necesario sentar las bases teóricas de los métodos 
estadísticos que permiten hacerlo. Por esto, la segunda sección. del curso se 
destinará al estudio de la teoría de probabilidades, de las variables aleatorias, de 
los modelos de probabilidad más comunes y del muestreo de distribuciones. 
Finalmente, la tercera sección, estará abocada al empleo de los .métodos 
estadísticos que nos permiten hacer conjeturas racionales acerca de los 
parámetros de la población y, entre ellos, veremos cómo es posible estimarlos, y 
decidir si, a partir de lo que se lee en la muestra, un parámetro es reconocido 
como perteneciente (o se asume que pertenece) a un determinado conjunto de 
números, o no. Es lo que se denomina Estadística Inferencial. 

Como se dijo antes, en general, lo que más interesa conocer no son esos 
valores concretos de las observaciones muestrales sino los valores de la 
población total (de todas las observaciones posibles) de la cual provinieron; por 
ejemplo, la probabilidad de obtener un 5 al arrojar un dado balanceado, o el 
porcentaje de nacimientos de niñas en la República Argentina durante el próximo. 
año. Una de las preguntas que la Estadística Inferencial permite responder es si 
un conjunto dado de observaciones podrían considerarsé como debidas al azar o 
si, por el contrario, reflejan el efecto de algún factor. Este modo de proceder se ha 
convertido en el método característico de la ciencia moderna. El científico que 
descubre fenómenos nuevos, relaciones de dependencia, tendencias o efectos de 
otro tipo, establece con ellos una hipótesis de trabajo y para constatar su validez 
deberá garantizar de algún modo que los resultados observados no se deben 
únicamente al azar. Todo estudio de este tipo se basa en la consideración de 
muestras aleatorias, es decir, muestras tales que todas las unidades de la ' 
población tengan la misma probabilidad de ser elegidas. Si la población total 
constara de diversas subpoblaciones parciales bien diferenciadas entre ellas, se 
tomarán muestras estratificadas. Así, por ejemplo, para examinar la calidad 
panadera de los trigos producidos en la región triguera argentina, que comprende 
5 subregiones agroecológicas con distintos escenarios productivos (ver figura 
1.1), no podría considerarse como representativa una bolsa de cereal cosechado 
en la Subregión IV, ni otra proveniente de la Subregión lll o de la V; en todo caso, 
podría ser útil una bolsa que incluyera cereal cosechado en las cinco 
subregiones. Todavía mejor sería extraer muestras de cada una de las 
subregiones por separado (Figura 1.1). En los sorteos de lotería se emplean 
métodos mecánicos para obtener muestras aleatorias. En general, para obtener 
una muestra aleatoria se enumeran las unidades de la población y a continuación 
se recurre a una tabla de números aleatorios o a un programa de computadora 
generador de números aleatorios. Una vez asignado un número a cada unidad 
-perteneciente a la población, se elegirán aquellas cuyos números coincidan con 
los números obtenidos en el proceso generador aleatorio. 


Figura 1,1. Subregiones 
de producción triguera 
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La razón fundamental por la cual se debe garantizar un proceso aleatorio 
de extracción de las muestras reside en el hecho de que podrían subyacer 
procesos dentro de la población que afecten sistemáticamente a algunas 
unidades y a otras no, esto es, procesos que afecten a ciertas unidades 
específicas  poseedoras :de alguna característica. Si el muestreo es- 
verdaderamente al azar, las.chances de ser elegidas serán iguales para todas las 
unidades, tanto las afectadas por el proceso sistemático como las no afectadas. 
En cambio, si el muestreo se realiza siguiendo alguna preferencia o idea personal 
por parte del investigador, podría darse el caso de que su idea o preferencia 
coincida con el patrón de variación de aquel proceso sistemático y; entonces, 
podrían resultar elegidas preferentemente las unidades de la población que 
posean tal característica y los valores numéricos calculados a partir de dicha 
muestra no reflejarán fielmente lo que pasa en el conjunto total de unidades de la 


población. 
Variables Estadísticas: tipos y escalas de registro. 


Las variables en estudio pueden ser de dos tipos: Cualitativas o Cuantitativas. 
Las variables cualitativas o atributos clasifican o describen a las 
unidades experimentales. Los valores que pueden asumir no constituyen un 
espacio métrico y, por ello, las operaciones de cálculo no son significativas en 

ellas. Ejemplos: género, nacionalidad, especie, marca registrada, color, olor, etc. 
Las variables. cuantitativas o numéricas cuantifican a las unidades 
experimentales. Los valores que pueden asumir constituyen un espacio métrico y, 
por lo tanto, las operaciones de cálculo son significativas en ellas. Ejemplos: 
cantidad de hojas, número de hijos, kilómetros recorridos, tiempo de vuelo, 
ingreso familiar, longitud de una espiga, etc. Estas variables cuantitativas pueden 
a su vez ser distinguidas en discretas o continuas. Las variables cuantitativas 
discretas solo pueden asumir una cantidad finita de valores de manera que, entre 
dos valores cualesquiera, siempre hay huecos. La operación que caracteriza a las 
variables cuantitativas discretas es la operación de contar. Ejemplos: cantidad de 
materias aprobadas, cantidad de hijos, número de frutos sanos, número de 
animales marcados, etc. Las variables cuantitativas continuas pueden asumir 
cualquier valor dentro de un rango dado. La operación que caracteriza a las 
variables cuantitativas continuas es la operación de medir. Se pueden medir 
longitudes, tiempos, superficies, densidades, volúmenes, sumas de dinero, etc. 
Ejemplos: peso de un animal al nacer, altura de un árbol, litros de aceite 
producidos, tiempo de viaje entre dos ciudades, etc. i 


Para obtener información sobre las variables estadísticas se utilizan 
diferentes escalas de registro acorde con el tipo de variable. Entre estas escalas 
de registro se cuentan las escalas nominal, de intervalo y continua. 
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Escala nominal. 


En la escala nominal, las unidades experimentales sólo pueden ser clasificadas 
en categorías sin ningún ordenamiento ni jerarquía entre ellas. Es aplicable a 
variables cualitativas. Ejemplos: ciudad natal, apellido, color de cabello, color de 
flor, etc. 


Escala de intervalo. 


En las escala de intervalo, las unidades experimentales pueden ser clasificadas 
en categorías las cuales pueden ser ordenadas o jerarquizadas y, además, se 
pueden establecer diferencias entre categorías. Esta escala es aplicable a las 
variables cuantitativas discretas. Ejemplos: número de personas con empleo, 
número de plantas con flor, etc. 


Escala continua. 


En la escala continua, las unidades experimentales pueden ser clasificadas en 
categorías que pueden ser ordenadas o jerarquizadas y, además, se pueden 
establecer diferencias entre categorías y las variables pueden tomar cualquier 
valor real. Sólo es aplicable a las variables cuantitativas continuas. Ejemplos: 
gramos de harina, litros de aceite, tiempo de decantación, etc. 


Ejercicios 


11 Un fabricante de medicamentos veterinarios está interesado en la 
proporción de animales que padecen infecciones locales cuya condición 
puede ser controlada por un nuevo producto antibiótico. Se condujo un 
estudio en el que se tomaron al azar 500 animales que padecían 
infecciones locales de una estancia de la Pampa Deprimida y se los trató 
con el medicamento en cuestión. Se encontró que el medicamento 
controló la enfermedad en el 80% de los animales. 


¿Cuál es la población sobre la cual fue conducido este estudio? 

¿Cuál es la muestra que se tomó? 

Identificar el parámetro de interés. l 

Identificar la estadística que se estimó y proporcionar su valor. 

¿Se conoce el verdadero valor del parámetro poblacional? 

Si tomamos otra muestra semejante, čel valor estimado del nue vo 
estadístico será idéntico al calculado anteriormente? | 
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DESCRIPCIÓN DE LA INFORMACIÓN | 


Tal como lo hemos apuntado en el capítulo 1, el proceso de extracción de 
información consiste, en la mayoría de los casos, en la obtención de una muestra 
aleatoria de una población grande y, una vez obtenida la muestra, se procede al 
estudio de la información que ella contiene. El estudio de la muestra comienza 
con la que se denomina descripción de la información la cual consiste, a su 
vez, en la presentación, organización y resumen de los datos de la muestra. 


Ordenamiento, clasificación y presentación de los 


La primera forma con la que usualmente el analista se encuentra, es una tabla de 
datos crudos, es decir, los datos dispuestos de la manera en que los tomó el 
operador. Comúnmente, los datos se registran en cuadros, tablas o planillas. Por 
ejemplo, el Cuadro 1 contiene 100 datos correspondientes a las mediciones de 
diámetros de espigas de maíz en. milímetros tal como fueron registrados por el 
técnico en el campo experimental, es decir, en el orden en que fueron leídos. 
Viendo el Cuadro 2.1, se podrían detectar algunas características aisladas de los 
números tales como números muy grandes o muy pequeños en comparación con 
los demás o, quizás, algún vacío de valores en algún segmento del Cuadro, pero 
no mucho más que eso. Para poder extraer más información de los datos, éstos 


deben estar clasificados u organizados. 


Cuadro 2.1. Cien mediciones de 
diámetros de espigas de maíz, en 
milímetros. 


[460 |456 158.01 554 | 537 


[4771483 [510| 63.8 60.0] 
aaa] 51.2 [607| 52.6 | 39.7. 
-446 | 464 [565| 53.0 | 42.0] 
610 
[4751525 [523| 57.2 |426] 
50.0 [517 [495| 56.3 | 
58.7 
55.0 
zn 


Q 
WO 
o 


D 


| 46:0 | 46.7 [55.0] 64.6 | 433 | 
Total: 50931 


| 53.1 | 46.1 [44.9] 49.0 | 538 | 


| 


Dje 
-Ao 
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2 Cuadro 2.2. Datos del Cuadro 2.1., 


clasificados en orden ascendente. 


90] 4601505182783] 
397 |460[ 5101527] 553] 
97] 461 [510] 5301554] 
ras aso[sta[s35[583] 
420 [a72 |514| 537565] 
[430477517 [502] 5011 
[4331483 [518 | 54.3 | 50.5] 
[440484518 [543] 60.0] 
[24a [29.0 [520 [54.41 60.7] 
Laso [490 [523 [544] 61.0] 
452 [500 | 52.5 | 56.0 | 64.6 | 
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Una forma muy simple de organizar la información contenida en los datos 
consiste en disponerlos en orden a su magnitud, es decir, clasificarlos en orden 
ascendente o descendente. En el Cuadro 2.2 se han dispuesto las 100 
mediciones del Cuadro 2.1 en orden ascendente. 

Con los datos clasificados como en el Cuadro 2.2 se pueden hacer 
algunas cosas más que con los datos crudos como, por ejemplo, detectar cuáles 
son los valores máximo y mínimo del conjunto o ver si hay alguna discontinuidad 
en la secuencia de los números, o ver si los números tienen alguna tendencia a 
agruparse en alguna zona determinada. Pero, aún con las ventajas que presenta, 
en la mayoría de los casos la. clasificación no le basta al investigador o al 
ingeniero para alcanzar sus objetivos. Un paso más decisivo en ese sentido lo 
representa la condensación de los datos en una tabla o distribución de 
frecuencias. En el Cuadro 2.3 se presenta la tabla de frecuencia correspondiente 
a los datos de los Cuadros 2.1 y 2.2. © 


Cuadro 2.3. Tabla de frecuencias correspondiente a los datos de los cuadros 2.1 y 2.2. 


Frecuencia de 


La tabla de frecuencias consiste en el agrupamiento de la masa de datos 
clasificados en un número reducido de grupos o clases delimitados por valores 
preestablecidos (intervalos de clase). Ya no existen más los valores individuales 
de los datos. Esta reducción implica, ciertamente, un cierto grado de pérdida de 
información porque, por ejemplo, del dato correspondiente al diámetro de 46.9 
sólo sabemos ahora que está en algún lugar dentro de la tercera clase de la tabla 
de frecuencias. En este curso solo veremos distribuciones de frecuencia con 
intervalos de clase uniformes, es decir que las tablas de frecuencia tendrán todos 
Jos intervalos con el mismo ancho. En la distribución del Cuadro 2.3, todos los 
intervalos tienen un ancho igual a 5 milímetros. 

Los valores extremos de cada intervalo de clase son los límites inferior y 
superior del intervalo. Por ejemplo, el límite inferior de la cuarta clase de la tabla 
es 50 mm y el límite superior de la misma es 55 mm. Debemos notar que el valor 
del límite superior de una clase puede coincidir con el del límite inferior de la 
siguiente pero el dato correspondiente a ese valor debe pertenecer a una y solo 
una de las clases. Para eludir esta ambigůedad se utiliza el símbolo “If para 


indicar la inclusión y el símbolo “(“ para indicar la exclusión de ese valor. Por © 


ejemplo, el dato 50 pertenece a la 3? clase y no a la 4°. En la tercera columna de 
la tabla se escriben las frecuencias absolutas correspondientes a cada clase. 
Las frecuencias absolutas no son otra cosa que la cantidad de datos que hay en 
cada clase. Por ejemplo, hay 40 datos dentro de la 4* clase y 15 datos dentro de 
la 5°, La suma de las frecuencias de clase (f) debe ser, obviamente, igual al total 
de datos en la muestra (usaremos el símbolo n para denotar el número de datos 
cuando se trate de una muestra y el símbolo N, cuando se trate de una 
población). Otro punto importante de cada clase es la marca de clase que no es 
otra cosa que el punto medio entre ambos límites. Por ejemplo, la marca de la 6° 
clase es 62.5. En cuanto al número de clases a emplear para construir la tabla de 
frecuencias, eso depende de varias consideraciones pero, a modo de regla 
empírica, digamos que el número de clases debería estar entre 5 y 15. En nuestro 
ejemplo hay 100 datos y la amplitud total (es decir, la diferencia entre el máximo y 
el mínimo) es de 65.2 — 39.0 = 26.2. Para estos datos se eligió un ancho para los 
intervalos de clases de 5 mm y, por tanto, un total de 7 clases. 
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La tabla de frecuencias, a pesar de la reducción en la información que 

implica, presenta una serie de ventajas. Por ejemplo, utilizando tablas de 

- frecuencias es más fácil comparar dos conjuntos de datos. Además, es más fácil 

- obtener las medidas que permiten resumir la información en unos pocos números. 

Finalmente, la tabla de frecuencias hace mucho más fácil la obtención de gráficos 
representativos de la distribución de los datos en la muestra o en la población. 


Tablas y representaciones gráficas de frecuencias 


Existen muchas maneras de representar gráficamente una distribución de 
frecuencias. En este curso veremos tres de las más importantes: el histograma, 
el polígono de frecuencias y el diagrama de caja y bigotes. Un histograma es 
una representación en la cual se inscriben en el eje de abscisas los valores de la 
variable en estudio y en el eje de ordenadas los valores de las frecuencias. El 
histograma correspondiente a los datos del Cuadro 2.3 se presenta en la figura 
siguiente: 


Figura 2.1. Histograma SET 
correspondiente a los 10 
datos del cuadro 1.3. 


ë obsensaciónes i 


El polígono de frecuencias se obtiene, simplemente, uniendo mediante 
una línea poligonal los puntos medios en la cima de la barras del histograma de la 
distribución. En la siguiente figura se representan conjuntamente el polígono de 
frecuencia y el histograma correspondientes a los datos. del cuadro 2.3: 


Figura 2.2. Polígono de 
frecuencia e histograma 
correspondientes a las 
datos del cuadro 2.3. 


El histograma es una representación muy completa de la distribución de 
frecuencias y superior al polígono pero, con todo, el polígono tiene utilidad en 
muchas instancias. Por ejemplo, el polígono es especialmente útil cuando se 
desean comparar dos distribuciones puesto que la superposición de los 
histogramas daría un gráfico confuso y difícil de interpretar mientras que la 
superposición de los polígonos deja espacio para una lectura cómoda y rápida. 
Otra ventaja del poligono de frecuencias es que puede, en ocasiones, ayudar a 
descubrir si hay alguna función matemática que pueda describir eficazmente la 
distribución real subyacente a la totalidad de los datos de la población. 


Capítulo 2 


Nay 
A Sa 
INIA >S 
rn 
W 
ad 


K. 
S 


E 
f, 
/ 
Ls 


ANNANN 
AAAA ANYS 
> 


> 


AN 


El tercer tipo de representación que veremos es el diagrama de caja y 
bigotes. Este tipo de gráfico presenta los valores de la variable en el eje de 
ordenadas, contrariamente al histograma y al polígono que presentan los valores 
de la variable sobre el eje de abscisas. Consiste en una caja que representa el 
50% central de la distribución de los datos ordenados, es decir, desde el dato que 
deja por detrás suyo (en orden ascendente) al 25% de los datos, hasta el dato 
que deja por detrás suyo (en orden ascendente) al 75% de los datos. Mediante 
los bigotes pueden representarse diferentes medidas aunque lo más común es 
que se represente a los valores máximo y mínimo de la distribución. Finalmente, 
mediante un símbolo especial (una estrella, un segmento, un cuadrado, etc.) se 
representa la mediana de la distribución, es decir, el valor que tiene. por debajo 
suyo al menos el 50% de los datos y por encima al menos el otro 50%. 
Definiremos más delante a la mediana. En la siguiente figura se presenta el 
diagrama de caja y bigotes de la distribución de frecuencias del Cuadro 2.3. 


Figura 2.4, Diagrama de 
caja y bigotes de la 
distribución - de 
frecuencias del cuadro 
2.3. 
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Variables Cuantitativas 


Frecuencias relativas 


Las frecuencias relativas se obtienen a partir de las frecuencias absolutas de una 
manera muy simple: se divide cada frecuencia absoluta por el número total de 
datos de la muestra (o de la población), es decir, f/n ó f/N y se las denota como 
fi En el siguiente cuadro se presenta :la distribución de frecuencias relativas ' 


correspondiente a los datos de diámetro. . 


Cuadro 2.4. Frecuencias relativas correspondientes a los datos de diámetro de 
espigas de maíz. (Muestra 1) 
7 Clase | f; | relativa (f; | 
[gomas] ( 14 | 0.140 
45-50 [| 21 | 0.210 | 
El li OLINA, 
| 


Una de las grandes utilidades de la distribución de frecuencias relativas 
es gue permite comparar distribuciones de frecuencias correspondientes a datos 
de diferente magnitud. Veremos un ejemplo de su utilidad. Supongamos que 
queremos comparar nuestra distribución de frecuencias de diámetros de espigas 
de maíz con otra distribución también de diámetros de espigas de maíz pero 
correspondiente a una muestra más grande de n = 200. 

Los datos correspondientes a la primera muestra (n = 100) se presentan 
en el cuadro 2.4. Los datos correspondientes a la segunda muestra (n = 200) con 
la cual se desea comparar la primera, se presentan en Cuadro 2.5. 
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Cuadro 2.5. Frecuencias relativas correspondientes a los datos de diámetro de 


espigas de maíz. (Muestra 1) 


Frecuencia | Frecuencia 
relativa (f) 


Los polígonos de frecuencias de ambas distribuciones permitirán observar 
cuál es la utilidad del cálculo de las frecuencias relativas. En la figura 2.5. se 
presentan las frecuencias absolutas de ambas distribuciones y, como puede 
verse claramente, ambos polígonos no se pueden comparar, simplemente, 
porque la segunda muestra es más grande que la primera y, por esta razón, el 
polígono de frecuencias absolutas refleja este hecho. 

En cambio, si graficamos los polígonos de frecuencias relativas de ambas 
muestras la comparación resulta válida y pueden verse las diferencias entre 
ambas muestras sobre una base homogénea. En la figura 2.6. pueden verse los 
polígonos de las frecuencias relativas de ambas muestras y se nota claramente 
como, por ejemplo, en la muestra 2 las espigas con diámetros superiores son un 
poco más frecuentes, en términos relativos, que en la muestra 1 mientras que las 
espigas con diámetros bajos son menos frecuentes, en general, en la muestra 1 
que en la muestra 2. 


Figura 2.5. Polígonos de 
frecuencias absolutas de la 
muestra 1 y la muestra 2. 


Figura 2.6, Polígonos de 
frecuencias relativas de las 
muestras | y 2. 
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Figura 2.7. Ojiva, 
representación de 
frecuencias 
acumuladas. 
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Frecuencias acumuladas 


Muchas veces, el interés del investigador no está puesto en la frecuencia absoluta 
o relativa de un determinado valor o intervalo de clase sino en el conjunto de 
valores que está por encima o por debajo de un valor específico. Por ejemplo, el 
número o porcentaje de animales de un rodeo que pesa, por lo menos, 350 kg, o 
el número de plantas de trigo que presentan, a lo sumo, dos espigas infectadas 
por un hongo patógeno. Para poder contestar rápidamente este tipo de preguntas 
se calculan las denominadas frecuencias acumuladas, tanto absolutas como 
relativas. > 

El cálculo de las frecuencias acumuladas (F; o F/n) se puede hacer en 
forma ascendente o descendente y es muy simple: en el primer caso, consiste en 
acumular los valores de las frecuencias absolutas (o relativas) hasta alcanzar el 
máximo valor, n (o 1); en segundo, consiste en ir restando o desacumulando las 
frecuencias absolutas (o relativas) desde el máximo valor, n (o 1) hasta llegar a 0. 
Ahora se aplicarán estos cálculos al ejemplo de los diámetros de las espigas de 
maíz con el que se viene trabajando. E 


Cuadro 2.6. Cálculo de frecuencias acumuladas. 


Creciente 


Las frecuencias acumuladas se representan mediante el gráfico como el 
de la figura 2.7.: 


La distribución de frecuencias acumuladas se utiliza para calcular 
gráficamente valores tanto sobre el eje de abscisas como sobre el eje de 
ordenadas. En la figura anterior, sobre el eje de ordenadas de la izquierda, se 
representaron las frecuencias absolutas acumuladas y sobre el eje de ordenadas 
de la derecha, las frecuencias relativas acumuladas. Por ejemplo, como se 
muestra en la figura, si queremos conocer la frecuencia acumulada absoluta 
correspondiente a los 47.5 mm de diámetro, solo tenemos que ascender en línea 
recta desde la posición 47.5 sobre el eje de abscisas hasta llegar a la ojiva y, a 
partir de ella, seguir en línea recta horizontal hasta interceptar el eje de ordenadas 
de la izquierda, para obtener el valor 39, También podemos usar la ojiva en forma 
inversa. Por ejemplo, si queremos saber cuál es el valor que acumula el 50% de 
la observaciones de diámetro, partimos del punto 0.50 sobre el eje de ordenadas 
de la derecha, seguimos en línea recta horizontal hasta llegar a la ojiva y, desde 
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allí, descendemos en línea recta vertical hasta llegar al eje de abscisas, para 
obtener un valor aproximado de 49 mm. : NE 


Variables cualitativas 


Hasta ahora hemos visto tablas de frecuencias y representaciones gráficas para 
variables cuantitativas pero todo esto también puede hacerse para variables 
cualitativas. La tabla de frecuencias correspondiente a una variable cualitativa 
muestra, simplemente, las frecuencias, tanto absolutas como relativas, tanto 
simples como acumuladas, para cada una de las categorías en las que está 
clasificada la variable. Supongamos, por ejemplo, que se recibe una encomienda 
de 200 unidades de un material clasificado según su grado de pureza en 5 
categorías: muy puro, puro, mediano, impuro y muy impuro. Una vez hecho el 
recuento se obtienen los resultados de la siguiente tabla: 


Cuadro 2.7. E 


7 Ram O 
| 59 


| Puro A 
Mediano 


- La representación gráfica que puede usarse es un diagrama de barras 
verticales u horizontales en el que se indican las categorías de la variable sobre el 
eje de abscisas y las frecuencias, sobre el de ordenadas. A continuación se 
presenta. un diagrama de barras verticales correspondiente al ejemplo de la 
pureza de los materiales. Cabe aclarar que los anchos de las barras son 
enteramente arbitrarios y no tienen significado práctico aunque deben ser iguales 


entre sí. 


Ů) 


Medidas resumen de la información 


Figura 2.8. Diagrama de 
barras verticaleš, 


El proceso de resumen de la información no se detiene con la distribución de ` 


frecuencias. Aún se puede resumir mucho más sin que por eso se pierda la 
posibilidad de rescatar la información verdaderamente útil y que resulta de interés. 
El proceso continúa con la obtención de las denominadas medidas resumen. 
Veremos dos clases básicas de medidas: (a) las medidas de posición (también 
llamadas medidas de tendencia central) y, (b) las medidas de dispersión. 
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Medidas de posición 


Las medidas de posición o de tendencia central dan una idea de cómo es la 
estructura de los datos, especialmente, la región central de la distribución de los 
mismos y, por ese motivo, reciben la denominación general de promedios. 
Aunque no siempre, algunas medidas de posición no están relacionadas con la 
región central de la distribución sino con otras partes de la misma. Las medidas 
promedio guardan cierta semejanza con el concepto de centro de gravedad de un 
cuerpo físico. Hay muchas medidas de posición pero en este curso veremos 
solamente tres: (i) los cuantiles y la mediana, (ii) la moda y, (iii) la media 
aritmética. 


Los cuantiles 


-Los cuantiles son medidas que se obtienen sobre la distribución de los datos 
clasificados. Una vez ordenados los datos en orden ascendente, se buscan en los. 
mismos, ciertas posiciones específicas de interés. Las tres clases de cuantiles 
más comunes son: (i) los cuartiles, (ii) los deciles y, (iii) los percentiles. Los 
cuartiles son posiciones que dividen la distribución de los datos en cuatro 
secciones. La primera va desde el valor mínimo hasta el valor que deja por debajo 
suyo, por lo menos, al 25% de los datos y por encima suyo, por lo menos, al 75% - 
de los mismos; este valor recibe el nombre de primer cuartil y se lo simboliza G1. 
La segunda va desde el primer cuartil hasta er valor que deja por debajo suyo, por 
lo menos, al 50% de los datos y por encima suyo, por lo menos, al otro 50% de 
los mismos; este valor recibe el nombre de segundo cuartil o mediana de la 
distribución y se lo simboliza q2, O Xs. La tercera va desde la mediana hasta el 
valor que deja por debajo suyo, por lo menos, al 75% de los datos y por encima 
suyo, por lo menos, al 25% de los mismos; éste valor recibe el nombre de tercer 
cuartil y se lo simboliza qs. Y la última que va desde g hasta el valor máximo. 


La moda 


La moda simbolizado Xm, es, simplemente, el valor más ecuentes de la 
distribución. Dada su definición, es posible encontrarse con distribuciones cuyos 
valores tengan, todos, la misma frecuencia: en ese caso, la distribución de los 
datos carece de moda. O podría darse el caso de una distribución que posea más 
de una moda. Por ejemplo, en la sección sobre curvas poblacionales, vimos una 
curva que poseía dos modas (curva bimodal). 


La media aritmética 


La media aritmética es, simplemente, el resultado de dividir la suma de todos los 
valores por n, el tamaño de la muestra (o N, si se tratara de una población) y se la 


simboliza x : 


(24) 


Las calculadoras de bolsillos con modo estadístico (SD) permiten calcular la- 
media aritmética (aparecen con el símbolo X ). Aplicando la fórmula a los datos de 
muestra del cuadro 2.1, obtenemos: ; S 
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931 mm 


La media aritmética tiene las siguientes dos propiedades de gran interés para el 
análisis de datos: 


IL que la suma de los desvíos de todos los valores de la muestra con 
respecto a la media aritmética es igual a 0: 


Z — x) =U 


L ; 

Il. que la suma de las desviaciones de los datos con respecto a la media 
elevadas al cuadrado, es menor que la suma de las desviaciones de los 
datos con respecto a cualquier otro valor elevadas al cuadrado. 

l Ey 
DÁ = = min. | 
La última propiedad cobrará relevancia cuando se definan las medidas de 
dispersión. i 


Cuando la muestra presenta valores repetidos muchas veces, conviene 
utilizar la media aritmética ponderada que se calcula con la fórmula general que 
se dio más arriba salvo que se indica mediante factores (ponderaciones) la 
cantidad de veces que se repite cada valor. Por ejemplo, supongamos la siguiente 
muestra: 1, 1, 3, 3, 3, 3, 3, 4, 5, 5, 5, 5, 5, 5, 5, 6, 7, 7, 7, 8, 8, 8, 8, 8, 8, 8, 8, 9,9, 
9, 9, 9, 9,9, 13, 15, 15, 15, 15, 15, 18, 23, 23, 24, 24, 24, 24, 24, 25, 25. Son 50 
datos, algunos de los cuales se repite varias veces. Entonces, en lugar de 
calcular la media con la fórmula anterior, sumando los valores uno por uno, se 
multiplica cada valor por su ponderación y se divide el total por n (en este 
ejemplo, n = 50): : 


1-243:54+4:14+5:74+6-14+7:3+-+24:54+25-2 _ 532 
2454147414340 +5+2 y 5 


t= 


M: 


= l 
Una fórmula general para este cálculo es: Xy = s 7] W (2.2) 
| Y ; 
i 


donde nA es la media aritmética ponderada, x; son los valores de las 
observaciones individuales y w; son las ponderaciones l l 


Medidas de dispersión 


Las medidas de posición, especialmente los promedios (media, mediana y moda), 
como se dijo antes, dan una idea de cuál es el “centro de gravedad” de la masa 
de datos pero nada dicen de cómo están distribuidos los datos alrededor de esos 
puntos centrales. Por ejemplo, la distribución formada por los números 1, 4, 8, 13, 
18, 22 y 25 y la distribución formada por los números 10, 11,12,19,14, 13 y-76 
tienen, ambas, la misma media aritmética, x = 13 pero no cabe ninguna duda de 
que la primera de las distribuciones tiene los datos más dispersos alrededor del 
punto central, que la segunda. Entonces, para completar la caracterización de una 
distribución de frecuencias, se necesita contar con alguna medida de esa 
dispersión. En este curso veremos tres principales, la amplitud, la amplitud 
intercuartil y la variancia y otras dos que derivan de la variancia: el desvío 
standard y el coeficiente de variación. i 
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Amplitud 


La amplitud es: la medida de dispersión más simple. Esta medida también se la 
conoce con el nombre de rango, aunque es más apropiado el término amplitud. 
En un conjunto de n observaciones Xy, X2, X3, -X la amplitud se define como la 
diferencia entre el máximo (Xmax) y el mínimo (Xmm). A pesar de la facilidad de 
cálculo y la simpleza de esta medida, la amplitud puede resultar insensible a la 
variación de los datos, sobretodo en Eon grandes de datos. 


Amplitud intercuartil 


La amplitud intercuartil, como su nombre lo indica claramente, es la diferencia, en 
valor absoluto, entre q4 y qa e incluye, por esta misma razón, el 50% central de la 
distribución de frecuencias. Es la que determina la longitud de la caja en el 
diagrama de caja y bigotes que vimos páginas atrás. 


Manaos y desvío standard 
La variancia es una medida refleja la dispersión de los datos alrededor se define 
como el promedio de los cuadrados de los desvíos de los datos con respecto a su. 


media. Para el caso de un conjunto de n datos de la va; able X (Xn Xa ao, Xn), la 
varianza se calcula como: . 


K ariancia( X ) = S say (2.3) 


Como la variancia es un promedio de desvíos elevados al cuadrado, sus 
unidades son las unidades originales elevadas al cuadrado. Para eliminar esta 
inconveniencia, se suele medir la dispersión. de los datos por medio del desvío 
standard que no es otra cosa que la raíz cuadrada de la variancia. Las 
calculadoras de bolsillos con modo estadístico (SD) permiten calcular tanto Sn 
como 81.1. 

llustraremos el cálculo de la variancia con un ejemplo. En el siguiente 
cuadro se presentan los registros de los rendimientos en grano de un híbrido de 
girasol (en Kg/parcela) en 10 ensayos experimentales: 


1251120 118 [134 [127 | 119 130 | 124 | 131 | 121 | 


Para aplicar la fórmula, primeramente debemos calcular la media 
1248 


= 124.8. Luego, podemos ordenar las 


aritmética la cual resulta ser x= 

cifras en forma de cuadro para facilitar los cálculos (x representa el rendimiento, 

en Kg/parcela): 

Do reo l125] 118 1133 1248 
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Luego 
n BS - ; 
Smx = = =255 Sima 25:9 = 5.055 Kg/parcela;' 
y: 
255. , 
Saya = AS 28.4 > s = 428.4 = 5,329 Kg/parcela. 
(a-1)X (10 =: 1) (n— 1). 


La muestra ha sido pequeña y, por esta razón, hay una diferencia más o 
menos notoria entre ambas fórmulas de variancia pero con muestras más o 
menos grandes la diferencia se hace insignificante. 


Coeficiente de Variación 


Cuando se necesita comparar el grado de variabilidad en la información ente dos 
muestras correspondientes a poblaciones diferentes en la magnitud de los datos, 
el solo uso del desvío standard no es suficiente porque surgirán diferencias que 
se deben a la naturaleza de: los datos y no a las variaciones de las muestras en 

. En ese caso, se recurre a una medida relativa de la variabilidad denominada 
soanen de variación (cv) que es, simplemente, el cociente entre el desvío 
standard y la media aritmética, multiplicado por 100. Para Sn. tenemos: 


= Tra -100 | (2.5) 
X 


Ejemplo. 

Se cuenta con una muestra de pesos de cerdos y con otra muestra de 
pesos de gallinas, y se desea saber cuál es comparativamente más 
variable. Los valores de medias y desvíos son los siguientes: 


Cerdos: z=324. K9; Su =38.8Kg.; 
Gallinas: X, =1.6 Kg; 5, = 0.299 Kg. 


Obviamente, los pesos de los cerdos tienen una variabilidad 
absoluta mucho mayor pero, ¿son realmente, más variables en relación 
con su media? Calculemos los respectivos cv: 


tl 

- 

© 
„a 


HI 
-r 
uo Y 


Vemos gue la variabilidad relativa en las gallinas. es un 57% 
mayor que la E Sponelen a los cerdos, aunque su desvío standard 
sea menor. 
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Ejercicios 


2.1 Como parte de un estudio de la producción vitivinícola de la provincia de 
La Rioja, se tomó una muestra aleatoria de 25 fincas del departamento 
de Chilecito y se registró su producción en tn/ha. Los datos obtenidos 
son figuran en la tabla; 


(tn/ha) (tn/ha) | Ctn/ha) (tn/ha) (tn/ha) 
71 138 [6 164 15 [oie je 
2 146 15,8 
-3 168 12,6 
4 146 17,3 
5 161 145 


a. En este estudio ¿cuáles son las unidades muestrales, cuál es la mues- 
tra y cuál es la población representada por dicha muestra? Prod) BA 

b. ¿Por qué es importante que la inuestra sea tomada aleatoriamente? 
Imaginar una situación en la que esta condición no se cumpla, y 
explicar sus consecuencias. 

c. Calcular la media aritmética y el desvío n de los valores de 
producción registrados. {4 ¿0% SL 

d. Construir una tabla de frecuencias relativas de los valores de produc- 
ción registrados. 

e. Construir un histograma de frecuencias relativas acumuladas. 

f. ¿En cuál clase se encuentra la mediana y en cuál se encuentra el ter- 
cer cuartil? 


2.2 El siguiente gráfico representa la distribución de frecuencias de la pro- 
ducción de nueces producidas por 36 nogales de una finca en la localidad 
de Tinogasta en la provincia de Catamarca, 


k 
o 


Frecuencia absoluta 
O A MO A o DH N œ (© 


(55 7 911 13 15 17 19 21 23 


Producción de nueces (kg/nogal) 


a. ¿De qué tipo de gráfico se trata? 
b. ¿Cuál es el valor aproximado del tercer cuartil? 
c. En otra finca en la provincia de San Juan se tomó una muestra 
similar y se encontró mayor producción por nogal y menor varianza 
18 


Capítulo 2 


entre nogales que en la de Tinogasta ¿Qué diferencias esperaría 
encontrar entre el gráfico correspondiente a los nogales de dicha 
finca y el gráfico que se presenta aquí? ba 


23 Para evaluar la calidad del algodón proveniente de un establecimiento de 
la provincia de Catamarca, se obtuvo una muestra de 18 porciones de 
fibra tomadas al azar la salida de la desmotadora. A partir de cada 
porción, se obtuvo una medición independiente de la longitud de fibra. 
Los datos figuran en la tabla: © 


| E L L L 4 
Unidad Muestral o E added jak | 
| Longitud de fibra (mm) |28,9| 341|306| 311 35,8 


6 z I a [9] 
29,5|32,9|36,2|32,0| 


A 


Unidad Muestra! 
Longitud de fibra (mm) 


101 «1 (12 1,13 1444.10 |: 16 |: 171 48 
321] 318 
a. Construir una tabla de frecuencias absolutas, relativas Y relativas . 

acumuladas. : 


b. Construir un gráfico de frecuencias relativas acumuladas y, sobre © © 


“el mismo, identificar a la mediana de las longitudes de fibra | 
c. Calcular la media aritmética, la varianza y el desvío standard de : 
las longitudes de fibra (mostrar los cálculos) 55,94 

d En un establecimiento del Chaco se analizó una muestra de 18 
porciones de fibra y se encontró que la longitud medía era de 2.98 
cm y el desvío standard de 0.55 cm, ¿Cuál establecimiento 
produce fibras más largas y en cuál la longitud es más 


heterogénea? 


24 El siguiente gráfico de frecuencias relativas acumuladas ha sido cons- 
truido con registros históricos de lluvias anuales de 2 localidades distin- 


tas (A y B): 


Frecuencia Acumulada. 


Lluvias anuales 


100.005 


| 
JN 


pr! 


AL. 


N 


[a a E 

"m >; ER 

A AS 

E DON JA S (E 

o U EK A ES A E BS) e 

U O E n E Y A E RA 

de C O P R R F PNR 
10.00% mů Es o ES 

0.00% MAA KO bo 10) EN 


t i t i 
enn TUQ amn 300 1000 mao 1200 1200. 1400. 1500 


Lluvias mmiaño 


= 
y 


a. ¿En cuál localidad llovió más en promedio? > : 
b. ¿En cuál localidad las lluvias Fueron más variables entre años? AÀ 
c. ¿Cuál fue la lluvia anual mediana en la localidad B? Y £ 250 
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d. ¿Qué valor de precipitación fue superado por el 80% de los años 
en cada localidad? k 

e. ¿En cuál localidad fueron mas frecuentes los años con 
precipitaciones entre 900 y 1200 mm? * 


2.5 Los siguientes diagramas de caja representan la distribución de la carga 


2.6 


2.7 


20 


parasitaria en ovinos de 30 días de edad en tres campos de la provincia 
de Corrientes. La carga parasitaria animal fue estimada a partir del 
recuento de huevos en las heces (número de huevos por gramo de heces 
HPGH). | 


150 


Carga parasitaria (HPGH) 
u 
a 


HH 


CampoA  CampoB Campo C 


a. Diseñar un breve protocolo para obtener datos como los utilizados 


en este caso. 


b. En este gráfico, ¿cuáles campos presentan distribuciones 


asimétricas? Justificar y © y Å 


c. ¿En cuál de los campos examinados se realiza aparentemente un 


mejor manejo sanitario? Discutir y justificar su respuesta. C 


d. ¿En cuáles campos la mediana del número de parásitos por animal 


ro 


no supera los 66 huevos por gramo de heces? h, < 


La tabla que se ve a continuación muestra los totales de precipitación 
(en mm) caídos en el mes de enero en las localidades de Esquel y 
Bariloche durante el periodo 1990-2001: 


1990 7 


| 


a) ¿En cuál localidad ha llovido más en 
promedio en el mes de enero? Jus- 


tico apropiado Media 

b) ¿En cuál localidad las precipitacio- 
nes han sido más variables? Justi- 

ficar la respuesta con un estadísti- 

co apropiado ' 

c) ¿Cuál es la proporción de años en 
los cuales ha llovido menos de 8 
min en cada una de las localidades? 


E í > , 
Las siguientes figuras representan la distribución de tamaños (DAP: 


diámetro a la altura del pecho) de una población de Prosopis caldenia 


tificar la respuesta con un estadis- 
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(caldén) localizada en Luan Toro, provincia de La Pampa. (a) histograma 
de frecuencias relativas y (b) histograma' de frecuencias relativas 
acumuladas. 


(b) 


Frecuencias relativas 


Distribución de tamaños 


Distribución de tamaños 


Frec. rel. acumuladas 


32.000 48.00 64.00 80.00 


DAP (cm) 


- 16,00 


16.00 32.00 48.00 64.00 80,00 


DAP (cm) 


a. ¿La distribución de los tamaños es unimodal? Justifique. ¿Cuál es el valor 


aproximado de la o las modas? 
b. ¿Qué porcentaje de fustes comercializables existe si el criterio es que 


superen los 48 cm de diámetro? | 
c. ¿Qué porcentaje de individuos no superan los 16 cm de diámetro? 
d. ¿Qué porcentaje aproximado de individuos se hallan dentro del rango de 30 


a 50 cm de diámetro? 
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CALCULO DE PROBABILIDADES 


En el capítulo 2 hemos presentado formas para organizar, describir y 


presentar los datos de una variable aleatoria registrados en una muestra. El 
análisis de los datos muestrales tiene, en realidad, la finalidad la finalidad de 
conocer algo acerca de una población de la cual la muestra fue extraída. Utilizar 
información contenida en una muestra para extraer conclusiones acerca de la 
información desconocida contenida en una población implica un riesgo basado 
en la incertidumbre implícita en dicha decisión. La Estadística provee una 
manera racional de cuantificar y acotar tal incertidumbre y para ello utiliza una 
medida de la incertidumbre denominada probabilidad. La utilización del concepto 
de probabilidad y de los métodos para su cálculo constituye la base sobre la que 
se asienta la toma de decisiones. Como hemós dicho en una sección anterior, la 
toma de decisiones estará, generalmente, referida a la elección de un valor 
determinado para un parámetro desconocido o a la elección de algún conjunto de 
valores al cual se asume que dicho parámetro desconocido pertenece. 


La existencia de incertidumbre acerca de un proceso físico implica la 


existencia de estados alternativos posibles para el mismo. Se cuenta con una 
determinada cantidad de información y se desea: conocer una cantidad de 
información adicional, ordinariamente, la porción restánte de la información total. 
Para ello, se debe contar con una enumeración del total de estados posibles del 
proceso. Además, se debe tener una medida de la posibilidad de ocurrencia para 
cada uno de dichos estados. Daremos, ahora, algunas definiciones. 


Un experimento aleatorio es un proceso cuyos resultados no se 


conocen a priori. El conjunto de todos los resultados de un experimento aleatorio 
se denomina espacio muestral lo que denotaremos S. Cada uno de los 
resultados posibles contenidos en un espacio muestral es un evento simple. 
Dado que los estados posibles del proceso son alternativos, ellos no pueden 
ocurrir simultáneamente, por lo cual se los considera mutuamente excluyentes. 
Además, asumiremos que el espacio muestral contiene todos y cada uno de esos 
estados alternativos, por lo cual se dice que ese conjunto de eventos simples es 
colectivamente exhaustivo. 


Ejemplos: 


Se arroja un dado de 6 caras, con una determinada cantidad de puntos en 
cada una de sus caras. Una cara contiene 1 punto, otra contiene 2 
puntos, otra contiene 3 puntos, otra contiene 4 puntos, otra contiene 5 
puntos y la última, 6.puntos. Por tanto, S = (1,2,3,4,5,6). 


Se arroja al aire una moneda equilibrada. Entonces, S = (C,X), donde C 
representa las caras y X, las cruces. 


Un subconjunto de eventos simples del espacio muestral constituye un evento 
compuesto y se los suele denotar con letras mayúsculas. : 
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Ejemplo: 


$ 


Cuando se arroja un dádo, un evento compuesto es el subconjunto de las 
caras con un número impar de puntos: A = (1,3,5). Otro evento 
compuesto es el subconjunto de las caras con una cantidad de puntos 
superior a 3: B = {4,5,6}. 
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Aproximaciones a la medida de la probabilidad 


Supuesto de eventos simples igualmente probables 


Utilizando este supuesto, consideramos que todos los eventos incluidos en el 
espacio muestral tienen las misma chances de ocurrir. Por ejemplo, si arrojamos 
una moneda de masa homogénea, esperaremos que los dos eventos posibles, 
tendrán las mismas chances de ocurrir y dado que su suma debe ser igual a 1 
(por el primer axioma), entonces, la probabilidad de cada evento será igual a 1/2, 
es decir que P(X) = P(C) = 1/2. Similarmente, si arrojamos el dado de 6 caras de 
masa homogénea que se mencionó en la página anterior, bajo el supuesto de 
eventos igualmente probables, P(1) = PQ) =: = P(6) = 1/6. En general, cuando 
hay K resultados posibles igualmente probables, la probabilidad de -cada uno de 
ellos será igual a 1/K. : o, o 

Entonces, si un espacio muestral tiene K resultados posibles y si un 
evento, A, que forma parte de ese espacio muestral contiene k eventos, la 
probabilidad de dicho evento es, simplemente, el cociente entre ky K 
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Ejemplos: 


« Se extrae un naipe de una baraja inglesa de 52 cartas. Sea A el evento 
corazón. Entonces, teniendo en cuenta que hay 13 corazones en total en 


la baraja: 


U 


e 


P(A)= 


| 


Ah 
to 
BI 


e Otra vez, se extrae un naipe de una baraja inglesa de 52 cartas. Sea B el 
evento número menor a 6. Hay 5 cartas menores a 6 en cada palo, por lo. 
cual, recordando que hay 4 palos, hay un total de 4 5 = 20 cartas cuyo 
número es menor a 6. Así que: 


P(B)=— = 


ə Finalmente, se extrae un naipe de la baraja inglesa de 52 cartas. Sea A el 
evento de que salga un corazón o un trébol. Hay 13 corazones y 13 
tréboles en la baraja. Así que: 


Frecuencia relativa de un evento 


Cuando no es posible sostener el supuesto de eventos igualmente probables es 
` necesario recurrir a otra manera de calcular las probabilidades. Volviendo al 
ejemplo de la moneda, si el supuesto de masa homogénea no se puede sostener, 
¿qué probabilidades habrá que asignarles a los eventos: C y X? Para poder 
responder a esa pregunta se recurre al cálculo de las frecuencias relativas de 
cada evento mediante experimentos repetidos. Se lanza repetidamente la 
moneda en cuestión y se registra la cantidad de cruces que salen. Y esa cantidad, 
en relación al total de veces que se lanzó la moneda, se toma como la 
probabilidad de que salga una cruz en el futuro. 


Si se lanza la moneda, digamos, 200 veces y sale cruz 80 veces, es 
razonable suponer que la probabilidad de que salga cruz al lanzar esa moneda se 
estima a 80/200, o sea 0.40. Queda claro que cuantas más veces se lance la 
moneda, más cercano a la probabilidad verdadera será el resultado que se 


obtenga. 1 i 


: Por eso, la definición de probabilidad utilizando este enfoque es: 


P(X) = lim žá M" (3.2) 


K>% K 


donde K es la cantidad de veces que se repite el experimento aleatorio y k es el 
número de veces en que ocurrió el evento X. Esta es la definición estricta: la 
probabilidad de un evento es.la frecuencia relativa que tendría en una serie 
infinita de realizaciones del experimento aleatorio. 
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Postulados de la teoría de į robabilidades 


Los postulados básicos de la teoría de probabilidades son los siguientes. 


il 


İV. 


La probabilidad dè un evento A, P(A), es un valor. numérico que se 
encuentra en el intervalo [0,1]. Es decir, l 


O < P(A) < 1. 
La probabilidad de la totalidad del espacio muestral es igual a 1: | 
„PS)=1. 
Dados dos eventos mutuamente excluyentes M y N, pertenecientes al 
espacio muestral S, la probabilidad de la ocurrencia de uno u otro de ellos 
es igual a: | 
P(MON) = PIN + P(N). 
Si M y N son dos eventos no mutuamente excluyentes definidos en un 
mismo espacio muestral, entonces: 


P(MON) = P(M) + P(N) — P(MAN) 


Ejemplo 

Se extrae al azar una carta de una baraja de 52 naipes ¿Cuál es la 
probabilidad de que dicha carta sea una figura (F) o un corazón (C)? 

P(C) = (1/4) 

P(F) = (12/52) = (3/13) y 

P(ENC) = (3/52) puesto que hay 3 figuras de corazones. 

Finalmente: l 

P(FOO) = P(F) +P(C)— P(FNC) = (3/13) + (1/4) — (3/52) = (11/26). 


Este postulado puede ser aplicado a cualquier cantidad de eventos. Por 
ejemplo, para el caso de 3 eventos, A, ByC: 


P(AUBUC) = P(A)+P(B)+ P(C) — P(ANB) — P(ANC) - P(BAC) + PÍADBAC). 


Ejemplo 
Un instituto de enseñanza de nivel medio ofrece cursos de 3 materias 
simultáneamente para 240 estudiantes: Matemática (M), Física (F) e 
Informática (I). Un total de 50 estudiantes cursan Matemática, 25 cursan 
Física, 18 cursan Informática, 12 cursan Matemática y Física, 10 cursarr 
Matemática e Informática, 5 cursan Física e Informática y 3 cursan las 3 
materias. ¿Cuál será la probabilidad de que un alumno. elegido al azar 


curse, por lo menos, una de las tres materias”? 


Pa ato DD 29 Sr a O Dno 
PAGURO == A aaa 
27 240 240 240 240 240 240 240. 
240 
= 0.2875 


Sea X“ el evento complementario del evento X, es decir que los eventos X“ 
y X son mutuamente excluyentes y colectivamente exhaustivos Entonces, 


| P(X®) = 1- P(X), 
Ejemplo 


Supongamos que se extrae una carta de una baraja inglesa. ¿Cuál es la 
probabilidad de que no sea un rey? Hay 4 reyes en la. baraja así que la 


probabilidad de rey es igual a (4/52) = (1/13). Por tánto, aplicando el 


teorema vemos que la probabilidad de que la carta extraída no sea ún rey 


será igual a 1- (1/13) = (12/13) 
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Probabilidades condicionales 


Cuando se reúne información adicional a la que se disponía inicialmente, el 


espacio muestral puede resultar redimensionado. Es decir, cuando hay una 
reducción de la incertidumbre (ya sea por aumento en la información disponible o 
por el empleo de supuestos por parte del ingeniero), puede que haya puntos 
muestrales que desaparezcan del espacio muestral resultando éste, reducido. Por 
ejemplo, frente al experimento aleatorio de lanzar un dado homogéneo, decimos 
que la probabilidad de que salga un 5 es igual a 1/6. Ahora, si se ha lanzado el 
dado pero solamente se puede saber que ha salido un número impar, pero no qué 
número ha salido, sigue habiendo una grado de incertidumbre, pero no cabe duda 
de que dicha incertidumbre es menor puesto que ya se sabe que salió un número 
impar: el nuevo espacio muestral es, ahora, S = {1,3,5}. Ahora, la probabilidad de 
que el dado haya salido 5 ya no es 1/6 sino 1/3. Las probabilidades calculadas en 
espacios muestrales reducidos por. información o supuestos adicionales se 
denominan probabilidades condicionales. Veamos un ejemplo. 

Supongamos que se toma una muestra-de 100 estudiantes y a cada uno 
de ellos se le hacen dos preguntas: (1) si ha aprobado el curso de Estadística y, 
(2) si le gustan las carreras de autos. Los resultados de la encuesta son los 


siguientes: 

Cuadro 3.1. 
No le gustan las carreras | To 
de autos ` 


| Le gustan las 
carreras 


tal | 


Se elige un estudiante al azar en dicha muestra y se definen dos eventos: 
X (el estudiante aprobó Estadística) e Y (al estudiante le gustan las carreras de 
autos). Entonces: 


P(X) SA sb P(Y) = — = 0.40. 

100 100 

Ahora, supongamos que la elección es realizada entre los estudiantes que 
han aprobado Estadística. Entonces, ¿cuál es la probabilidad de que el estudiante 
elegido sea afecto a las carreras de autos? Hay una información adicional que 
cambia el espacio muestral: se está dando por cierto que el estudiante aprobó 
Estadística y la única incertidumbre que queda es si le gustan las carreras de 
autos o no le gustan. Por tanto, el nuevo espacio muestral está restringido a la 
segunda fila del cuadro: S = (le gustan las carreras, no le gustan las carreras) con 
un tamaño igual a 80 (el total de estudiantes que aprobaron Estadística). 
Entonces, la probabilidad buscada es: 


De la misma manera se pueden calcular otras probabilidades 
condicionales como, por ejemplo, la probabilidad de que haya aprobado 
Estadística dado que le gustan las carreras de autos. En ese caso: 


a 
'PXIY)=%==0.70. 


Capitulo 3 


También se podría haber transformado todo el cuadro en probabilidades, 
dividiendo por el total: l , E 


Cuadro 3.2. 


"No le gustan las. 
careras de autos 
(52/100) = 0.52 


Le gustan las © 
„čareras de autos _ 
(28/100) = 0.28 


| Aprobó (80/100) = 0,80 

| Estadística | 
| No aprobó | 
| Estadístic 


(8/100) = 0.08 (20/100) = 0.20 


(12/100) = 0.12 


y calcular las probabilidades condicionales de la siguiente manera: 


ec DB a 
PlY/XK)= ZZ =0.35 y 
0.80 
Bojs =o: 
0.40 | 


Las probabilidades gue están en los márgenes del cuadro (0.80, 0.20, 
0.40 y 0.60) se denominan probabilidades marginales y las probabilidades que 
están en el cuerpo del cuadro (0.28, 0.52, 0.12 y 0.08) se denominan 
probabilidades conjuntas. 


En general, se presentan tres tipos de problemas: 


(i) se conoce la probabilidad conjunta de dos eventos y una de las 
probabilidades marginales. y se desea conocer una. probabilidad 
condicional; es el caso del ejemplo de más arriba, donde se conocen 
las probabilidades conjuntas y las marginales y, con eso, se pueden 
calcular probabilidades condicionales; 

(11) se conoce una probabilidad condicional y una probabilidad marginal y 
se desea calcular una probabilidad conjunta; l 

(iii) se conoce una probabilidad condicional y una probabilidad conjunta y 

se desea calcular una probabilidad marginal. 


La ecuación correspondiente al caso (1) es: 


pos O 
m P(X) 
e A le) 
P(X / = — 3.3 
(X/£) PO) (3.3) 
Para el caso (ii): | 
PLAY) = PLYIX) POD 6 
PXAY) = PXIY) FLY) | (3.4) 
Y para el caso (iii): 
P= AE. poze S a (8,5) 


PX) P(X/Y) 
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Eventos independientes 


Se dice que dos eventos son estadísticamente independientes cuando la 
ocurrencia de uno de ellos no afecta la probabilidad de ocurrencia del otro y, 
entonces, la probabilidad de su ocurrencia simultánea (probabilidad conjunta) es 
igual al producto de sus probabilidades individuales: PIXAY) = PX) FRY). 
Contrariamente, si la ocurrencia de uno de los eventos afecta la probabilidad de la 
ocurrencia del otro, entonces se dice que esos dos eventos son 
estadísticamente dependientes y, entonces, su probabilidad conjunta es igual al 
producto de la ocurrencia de uno de ellos por la probabilidad condicional de la 


ocurrencia del segundo dado que ha ocurrido el primero: P(XAY) = P(X) AX. 


Ejercicios 


31. Un turno de exámenes consta de 5 fechas diferentes. Un alumno debe 
rendir 3 materias. ¿De cuántas maneras diferentes se puede anotar 
para rendir sus exámenes si sólo puede rendir una materia por fecha? 60 


3.2. En un estudio sobre la regeneración de la palmera yatay (Butia yatay) en 
el Parque Nacional El Palmar se registró la supervivencia de 200 
plántulas de palmera tomadas al azar dentro de un palmar. Entre las 
plántulas elegidas, 120 estaban ubicadas a menos de 4 metros de 
distancia de la palmera adulta más cercana (bajo su copa) y 80 estaban 
ubicadas a más de 4.m de distancia de la palmera adulta más cercana. Al 
cabo de un año, seguían vivas 80 de las plántulas ubicadas a menos de 4 
m de una palmera adulta y 60 de las ubicadas a más de 4 m de la palmera 
adulta más cercana. Definamos ahora el experimento aleatorio que 
consiste en tomar al azar una de las plántulas: | 

a. ¿Qué eventos simples componen el espacio muestral de este 
experimento? l ; 
b. Señalar dos eventos mutuamente excluyentes en dicho espacio. ¿Cuál es 
la probabilidad de cada uno? ¿Cual es la probabilidad de que ocurra uno 
o el otro? | 
c Señalar dos eventos NO mutuamente excluyentes. ¿Cuál es da 
probabilidad de cada uno? | | | 
d ¿Cuál es la probabilidad de que una plántula tomada al azar haya 
sobrevivido? A 
e. ¿Cudl es la probabilidad de que una plántula ubicada a más de 4 m de 
distancia de la palmera adulta más cercana haya muerto? V, +; 
f ¿Es independiente la supervivencia de las plántulas estudiadas de su 
| ubicación respecto de la palmera adulta más cercana? ¿Por qué? 


3.3. En una planta procesadora de frutas dos inspectores revisan 
visualmente la fruta. Cuando aparece una fruta defectuosa, la 
probabilidad de que no sea detectada por el primer inspector es igual a 
0.1. De aquellas no detectadas por el primer inspector, el segundo 
inspector sólo detecta 5 de cada 10. e 

a. ¿Cuánto vale la probabilidad de que una fruta defectuosa no son 
detectadas por ninguno de los inspectores? “3% 
b. Explicar esta probabilidad en términos de la definición estricta de 
probabilidad. | 
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3.7 A continuación se muestra una tabla probabilística acerca del nivel -de 

instrucción de productores de una zona y la implementación de nuevas 

técnicas de cultivo y sea A el evento nivel de instrucción bajo y B, el 
evento no implementa nuevas técnicas de cultivo. 


Implementación de nuevas técnicas de cultivo 


a. Calcular P(ACLB) V | | 
b. ¿Son independientes el nivel de instrucción de los productores de esa 
zona y la implementación de nuevas técnicas de cultivo? Mo 


3.5. La siguiente tabla muestra algunas de las probabilidades relacionadas 
con el aumento de peso de pollos criados con distintas raciones. Además, - 
se sabe que el 80% de los pollos criados con la ración A aumentan menos 
de 50 g /día;: ' 


Aumento de peso 
> 50 gr. / día [002 10.0 £ 0.6 10. 
0.20 (0,7 


a. Completar la Tabla. | | 
b. ¿Cuál es la probabilidad de encontrar pollos con aumentos de peso 


menores a 50 g /día y alimentados con la ración B? © O% ©" {u Sa 
c. ¿Cuál es la probabilidad de que pollos alimentados con'la ración B 
aumenten menos de 50 g /dia? “Lv [560/4] 


pa e 


aumenten menos de 50 g /día? (U, Ao. Dl ZÁ 
e, ¿EI aumento de peso es independiente del tipo de ración que ` 
reciben los pollos? Justificar la respuesta, 


d. ¿Cuál es la probabilidad de que pollos alimentados con la ración E 


3.6. En un estudio sobre el control de la fusariosis del trigo (una 
enfermedad producida por un hongo), se pusieron a prueba tres tipos de — 
dispositivo aspersor (boquillas) para aplicar un fungicida (A, By C). Para 
ello se seleccionaron 80 cultivos, cada uno fue tratado con un tipo de 
boquilla. asignado al azar y un tiempo después se registró la presencia o 
ausencia de la enfermedad en cada uno. Entre los 80 cultivos tratados, 
sólo 15 presentaron la enfermedad, El número de cultivos infectados 
tratados con las boquillas A y C fue igual y equivalente a un tercio del 
número de cultivos infectados tratados con la boquilla B. Además, entre 
los cultivos tratados con la boquilla A, la mitad apareció infectada. © 

a. ¿Cuál fue la probabilidad de contraer fusariosis de los cultivos tratados 
con la boquilla A? © 2 ji 

b. ¿Cuál fue la probabilidad de no contraer fusariosis de los cultivos 
tratados las boquillas Bo C? ` : 


31 


x 


Capitulo 3 


3.7 En un lago conviven dos especies de pejerrey (A y B) en igual proporción. El 
22% de los pejerreyes de la especie A y el 35% de los de la especie B 
están infectados por un protozoo intestinal. 


a. 


b. 


¿Cuál es la probabilidad de que un pejerrey tomado al azar esté 
infectado? 

¿Cuál es la probabilidad de que un pejerrey tomado al azar esté 
infectado y además pertenezca a la especie A? 

¿Cuál es la probabilidad de a un pejerrey infectado E a la 
especie A? 

Usando probabilidades codes explicar por qué la infección cón 
el protozoo intestinal no es Ena accede independiente de la 
ná de pejerrey. 
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DISTRIBUCIONES DE PROBABILIDADES | 
eee 


Variables aleatorias 


En la aplicación de las probabilidades para el análisis de la información 

proveniente de experimentos aleatorios, se trabaja con variables definidas a partir 

de los espacios muestrales. Dichas variables reciben el nombre de variables 

aleatorias. Las variables aleatorias, dado que provienen de un espacio muestral, 

son variables que pueden asumir un determinado conjunto de valores diferentes 

con determinadas probabilidades. Los análisis estadísticos involucran a la 

distribución de probabilidades de la variable aleatoria de interés. Estas - 
variables aleatorias pueden ser de dos clases: variables aleatorias discretas y 

variables aleatorias continuas. 


Variables aleatorias discretas 


Las variables aleatorias discretas sólo pueden tomar valores nominales o valores ` 
cuantitativos discretos. A cada uno de esos valores o categorías, le © 
corresponderá una probabilidad. Así queda constituida la distribución. de 
probabilidades de la variable aleatoria discreta. La suma de las probabilidades 
correspondientes a todos los valores o categorías que puede tomar de una 
variable aleatoria discreta es igual a 1. 


Ejemplos: 
ə Sea la variable aleatoria estado sanitario de un animal con dos 


categorías, sano (H) y enfermo (E). Entonces, el espacio muestral es S = 


{H,E}. 


» Seala variable aleatoria número de puntos obtenidos al arrojar un dado 
equilibrado. Entonces, el espacio muestral es S'= (1, 2, 3, 4, 5, 6}. La 
distribución de probabilidades correspondiente a esta variable es 


E TETSTETET 


Entonces, escribimos: P(1) = P(2) = P(3) = P(4) = P(5) = P(6) = (1/6). Si 
denotamos a una variable aleatoria discreta con el símbolo X, y a cada 
uno de los valores particulares que puede tomar x, entonces, la 
probabilidad de un valor particular x, se denotará P(x;). 


Las distribuciones de probabilidades de variables discretas se pueden - 
representar gráficamente mediante un diagrama de barras verticales en el 
cual se inscriben los distintos valores que la variable aleatoria puede tomar en 
el eje de abscisas y sus respectivas probabilidades en el eje de ordenadas. 


Ejemplo: 


ə Sea la variable aleatoria discreta número de cruces que se pueden 
obtener al lanzar tres monedas equilibradas. Si los lanzamientos de las 
tres monedas son eventos independientes, la distribución de 
probabilidades de esta variable aleatoria es la siguiente: 


AO EN 
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Figura 4.1. Distribución 
de variable aleatoria 
discreta. 


Figura 4.2. Distribución 


de probabilidades 


acumuladas. 
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La representación gráfica de esta distribución de probabilidades se 
muestra en la Figura 4.1... ; Ei : 


- Probabilidad: oso l 


NW de:cruces al lanzar 3 monedas a k Rko 


Distribución de probabilidades acumulativa 


Muchas veces es necesario conocer la probabilidad, no ya de un suceso puntual 
particular, sino de un conjunto de sucesos y, entonces, surge la necesidad de 
acumular probabilidades. Aquí estamos tratando otra vez con ese concepto y por 
eso presentamos la distribución de probabilidades acumulativa de una 
variable aleatoria discreta como la probabilidad de que la variable aleatoria asuma 
un valor tope o menor, es decir, interesa conocer la probabilidad P(X < xj)... 


Ejemplo. 
Utilizando otra vez el ejemplo anterior, se desea conocer la probabilidad 
de que al lanzar 3 monedas equilibradas, se obtengan, a lo sumo, astra 
Entonces: : l 
P(X<1) = P(X= 0) + P(X= 1) 
= (1/8) + (3/8) © 


En el siguiente cuadro se representan la distribución de probabilidades y 
la distribución de probabilidades acumulativa del experimento de lanzar 3 


monedas: 
| N° de cruces en 3 monedas E 
| Probabilidad | 


Probabilidad acumulada 7/8. | 8/8 | 


Y la representación gráfica de la distribución de probabilidades 
acumuladas es: 
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Esperanza matemática o media poblacional de una variable 
aleatoria discreta : | 


La esperanza matemática de una variable aleatoria discreta es el promedio de 
todos los valores que tomaría en una serie infinita de experimentos aleatorios. 
Como por definición, la frecuencia relativa de cada valor de la variable infinita es 
justamente su probabilidad la esperanza matemática puede ser calculada como: 


E(X)= yá -P(x,) (4.1) 


La esperanza matemática de X se suele simbolizar Lx y es también llamada valor 
esperado de X o media poblacional de X. 


Ejemplos: 


Nel 
ə | Para el caso del lanzamiento de las 3 monedas: 


= 0 (4/8) + 1 (3/8) + 2 (3/8) + 3 (1/8) 

= (3/2). 

e Para el caso de la variable aleatoria nůmero de puntos obtenidos al 
arrojar un dado eguilibrado: 


(1/6) + 2 (1/6) + 3 (1/6) + 4 (1/6) + 5 (1/6) + 6 (1/6) 


Propiedades de esperanza matemática de una variable discreta: 


l, Sea k una constante arbitraria. Entonces, si se suma k a cada uno de los 
valores de una variable aleatoria X, resulta: 


E(X + k) = E(X) + k. (4.2) 


Ejemplo. 
Si sumamos la Sonatane 2 ala variable aleatoria número de puntos 
obtenidos al arrojar un dado equilibrado, resulta: E(X + 2) = E(X) + 2. En 


efecto: 


E(X + 2) = Ux+2 | p 
: ie, (1/6) + (2+2) (1/6) + (3+2) (1/6) + (4+2) (1/6) + 
+ (5+2) (1/6) + (6+2) (1/6) 
3 (1/6) + 4 (1/6) + 5 (1/6) + 6 (1/6) + 7 (1/6) + 8 (1/6). 
(33/6) | 


uH H N A 


5.5 

3.5 +2. 

M. Sea k una constante arbitraria. Entonces, si multiplica por k a cada uno de 
los valores de una variable aleatoria X, resulta: 


E(X k) = EX) k | (4.3) 


Ejemplo. 
Si multiplicamos por la constante 2 a la variable aleatoria nůmero de 
puntos obtenidos al arrojar un dado eguilibrado, resulta: E(X 2) = E(X) 2. 


En efecto: 
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E(X 2)= 4x2 l e 
= (+ 2) (1/6) + (2 2) (1/6) + (3 2) (1/6) + (4 2 (16) + 
+ (5 2) (1/6) + (6 2) (1/6) : 
2 (1/6) + 4 (1/6) + 6 (116) + 8 (1/6) + 10- (1/6) + 12 (1/6) 
(42/6) | 
7.0 l 
(3.5) 2. 


EnG H 


M Juntando las dos ecuaciones 4.2. y 4.3. en una sola, obtenemos que : 


Elk; X+ ko) = katk EX) © | (4.4) 


donde k, y kz son constantes arbitrarias. Se deja como ejercicio para el 
lector, aplicar esta última propiedad a la variable aleatoria número de 


puntos obtenidos al arrojar un dado equilibrado. 


IV. La ecuación 4.1. implica que si la esperanza de una variable aleatoria X es 
E(X) = 4 entonces 


E =0 | (4.5) 


Variancia poblacional de una variable aleatoria discreta 


© Similarmente a lo apuntado en el capítulo de Descripción de la Información, la 
variancia de una variable aleatoria mide la dispersión de los valores que toma en 
la población alrededor de su esperanza matemática. La variancia de una variable 
aleatoria discreta X se define como: 


V(X) = 0% 


= 2 px) (a „| 


(4.6) 


Comparando la fórmula 4.2. con la 4.6. es posible visualizar que la variancia 
poblacional no es otra cosa que. VX = ENX-u)"]; el valor esperado de los 
cuadrados de los desvíos de X con respecto a su media poblacional y. 


Propiedades de la variancia de una variable aleatoria discreta: © 


|. Si sumamos una constante a una variable aleatoria, su variancia no altera. 


V(X + k) = | i 
= E[(X+ k- E(X+k))7 
= E[(X+ k- E(X) - K) 
= EXE) E 
= V(X) | | (4.7) 


M. Si multiplicamos una variable aleatoria por una constante, su variancia 
resulta multiplicada por dicha constante elevada al cuadrado. En efecto 


“M 


x= 
> 
úl 


[(k X- E(kX) 
[(k X- k ECO 
[k* (X- EI 
“ELO El VA | 
ZV% > 48) 


O 1 O 1 i 
== Mmmm 


IL Combinando las propiedades (i) y (ii) resulta que 
Viki X+ kə) = ké VX) | (4.9) 
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' Desvío standard poblacional y coeficiente de variación 


El desvío standard poblacional es simplemente la raíz cuadrada de la variancia 
poblacional y el coeficiente de variación es el cociente del desvío standard 
sobre la esperanza matemática, multiplicado por 100. 


Ejemplo. 


Siguiendo con la variable aleatoria discreta número de puntos obtenidos 
al arrojar un dado equilibrado, resulta: 


=1.708, y | (4.10) 


Variables aleatorias continuas 


Las variables aleatorias continuas toman valores en el campo de los números ' 


reales y, por lo tanto, su distribución de probabilidades está representada por una 
función continua puesto que la variable puede tomar infinitos valores. 

Ahora, dada esta característica de continuidad, la probabilidad de que la 
variable X tome un valor particular infinitesimalmente exacto, es igual a 0. Esto 
nos obliga a que, cuando se trata de variables aleatorias continuas, tengamos que 
calcular probabilidades de intervalos entre dos valores y no para un dado valor 
único. Ya no escribiremos P(X = x) sino P(X < x) o P(x;< X < x). Así que, ahora, 
la probabilidad resultará ser un área en la representación gráfica y estará 
determinada por una integral bajo la curva de una función que se denomina 
función de densidad de probabilidad, fx). En el siguiente gráfico se 
esquematizan estos conceptos: 


De manera que cuando calculamos probabilidades para variables 
aleatorias continuas, estamos calculando probabilidades acumuladas. 
Simbolizaremos las probabilidades de que la variable X sea menor o igual a un 
valor particular x como F(x) que es, como se dijo antes, la integral de la función de 
densidad fx), desde -œ hasta x, es decir, F(x) = P(X < x). F(x) se denomina 
función de distribución de probabilidades. Asimismo, para un intervalo [x4,x2], 
resulta que P(x < X < x2) = F(x2) — F(x). Todas estas consideraciones nos llevan 
a la conclusión de que el área total bajo la curva de la función de densidad (que 
representa, en este caso, la probabilidad de todo el espacio muestral) debe ser, 
necesariamente, igual a 1. 
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Figura 4.3. Curva de 
la función de densidad 
de probabilidad. 


Figura 4.4. El área 
que queda debajo de la 
función de densidad 
de probabilidad en 
todo el espacio 
muestral es igual a 1 
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Para ser función de densidad, “una función debe cumplir dos requisitos 
fundamentales: | E 


(a) debe ser no negativa en todo su intervalo de definición; m 
(b) la integral definida de la función calculada sobre todo el intervalo de 
definición debe ser igual a 1. 


Para ilustrar las propiedades de las distribuciones de probabilidad de variables 
continuas presentamos a continuación un ejemplo en el cual la función de 
densidad de probabilidad es una función lineal. 


Ejemplo. 

Sea la variable aleatoria X cuya función de densidad se define de la 

siguiente manera: en el intervalo [2;4], x) = (1/18) (8 + 2x), y para 
- cualquier otro.valor de X, foo =0. 

ə Primeramente, observemos que fx) es continua en [2;4]. 

+ En segundo término, podemos ver que fx) > 0 en [2;4]. 


e Finalmente, veamos que el área total bajo la curva de la función de 
densidad es, efectivamente, igual a dle 


+% 


[fax 

ES 4 1 + 

= |o.dr+ jg 6+29-de+ jo: dx 
-m 2 7 4 
S , 

P ea: 

P K +2x)dx 

= x), 

= p (02+10)-(6+0]=1 


Gráficamente: 


JE x 


Ahora determinaremos la función de distribución F(x}: 


Xx 


f E i G 2t)dt 


18 

l ea 
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> je ) 
E a 
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~ 
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Finalmente calculemos una probabilidad P por ejemplo, PEER: 


< 3.5). 
P(2.5 < X < 3.5) = F(3.5) - F(2.5) 
= 0.708333 — 0.208333 
=0.5. 


Gráficamente: — 2222 


Esperanza y variancia poblacionales de una variable aleatoria 
continua 


Sea la variable aleatoria X con función de densidad f(x) definida en vel intervalo 
[a,b]. Entonces su esperanza matemática o media se define como: 


EX) = u 
(4.11) 


B 
= Jx: f(x) dx 


y su variancia, como: 


Vse 
z 
= [10 fle) as = 


a 


Las propiedades de la esperanza (4.2., 4.3, 4.4 y 4.5) y de la variancia (4.7, 4.8 y 
4.9) de una variable aleatoria discreta se aplican para variables aleaoNas 
continuas, es decir: 


M ena + ko) = ko + k E(X), donde ki y ka son constantes 
arbitrarias; 
IV Sea la variable aleatoria X con E(X) = u entonces EX- 4) =0. 
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Variables aleatorias estandarizadas 


Como veremos más adelante, muchas veces resulta conveniente trabajar con las 
variables transformadas a través del proceso de estandarización, en lugar de 
hacerlo con las variables originales. El proceso de estandarización consiste, 
simplemente, en transformar cada uno de los valores de la variable restándole la 
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media aritmética (o sea, Ea esperanza matemática) y dividiendo dicha resta de el 
desvío standard. La nueva variable se simboliza con la letra Z: © 


X — ly 


Z= (4.13) 


Oy 


La nueva variable se denomina variable aleatoria estandarizada o 
variable aleatoria standard y, dado que surge de restar la media y dividir por el 
desvío standard, tendrá media igual a 0 y variancia igual a 1, pues: 


E(Z)= y tx] 


O X 
EQ) EX), 


Algunas distribuciones de probabilidades de uso común 


Hay una gran cantidad de fenómenos naturales y sociales que se caracterizan por 
compartir un patrón de comportamiento similar. Además, se han descubierto 
modelos matemáticos sencillos que tienen la capacidad de describir muy 
ajustadamente dichos comportamientos. Por estas razones es que se ha: 
consagrado su uso como herramienta de análisis. En este curso veremos un 
modelo para variables aleatorias discretas y tres modelos para variables 
aleatorias continuas, aunque poniendo especial énfasis en uno de ellos. 


Un modelo de variable aleatoria discreta 


La distribución binomial 


Este modelo se emplea con variables aleatorias discretas que sólo pueden asumir 
dos valores o categorías que pueden denominarse de varias formas equivalentes: 
0 y 1, éxito y fracaso, defectuoso y no defectuoso, etc., dependiendo del problema 
de que se trate. Uno de esos dos estados tiene una probabilidad constante que 
designaremos con la letra 7 y, por tanto, el otro estado alternativo tendrá una | 
probabilidad 1 - z ya que es el evento complementario. 

Este tipo de variables se denominan dicotómicas y su distribución de 
probabilidades se genera mediante la repetición de n experimentos aleatorios 
independientes, en cada uno de los cuales se mantienen constantes las 
probabilidades de los dos estados posibles de la variable aleatoria. 
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Ejemplos: 


s 


La variable aleatoria faz de úna moneda es un típico ejemplo de variable 
aleatoria dicotómica puesto gue sólo puede asumir dos estados, cara y 
cruz y, por tanto, su distribución de probabilidades es bien descripta por la 
distribución binomial. Un proceso binomial con una moneda podría 
consistir en lanzar la moneda 20 veces y estudiar el número de cruces 
que han salido en esos 20 lanzamientos. 

La función de distribución de probabilidades binomial permite calcular la 
cantidad x de veces que se produce un dado resultado de una variable 
binomial, en n experimentos aleatorios independientes y se define de la 
siguiente manera: E 


n : MAX 
ml)” (4.14) 


b(x;n,z)= 


nV. | l : i 
conde | | es un número combinatorio como hemos visto en la clase 


xX 
anterior, y zes la probabilidad (constante de experimento en experimento) 
del resultado buscado. De modo que una distribución de probabilidades 
binomial queda completamente definida conociendo los valores de n y z. 


En un lote de 12 plantas, 3 tienen flores púrpura. Si se extrae del lote una 
muestra al azar de 3 plantas, con reposición, ¿cuál es la probabilidad de 
que: (a) exactamente 1 planta tenga flores púrpura, y (b) a lo sumo 1 
planta tenga flores púrpura? El muestreo con reposición asegura la 
independencia de las elecciones sucesivas, así que se puede aplicar el 
modelo binomial. Como 7= (3/12) = 0.25, entonces: | 


| > 
1) b(1;3,0.25)= i 10250157? 
= 0.42 
y 
PPE Se O PO ES IE FE 
2) b(0;3,0.25)+ b(1;3,0.25) = o 025075 + 0,250.75" 


= 0.84 


Como toda distribución de probabilidades, la distribución binomial también permite 


calcular 


probabilidades acumuladas. La distribución de. probabilidades 


acumuladas permite calcular la probabilidad de obtener a lo sumo m resultados 
en n ensayos: 


B(m; n, ) = P(X <m ) 


| = b(0; n,m )+ bli;n, m) $ b(m; nm) 


m | 
= Vl; A, 7) 
x=0 


Ejemplo: 


4.1. 


Una moneda equilibrada es arrojada 10 veces: ¿cuál es la probabilidad 
de obtener 8 o más caras (es decir, por lo menos 8 caras)? Aquí 
tenemos un modelo binomial con n = 10, z =-0.5. La probabilidad 
buscada es la de obtener 8, 9 ó 10 caras. Entonces: 
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10 7 ' 
Y blx;10,0.5)=1— X b(x;10,0.5) 
NES l x=0 l 
=1-0.94531 

= 0.05469 . 


Se puede demostrar gue la esperanza matemática de una distribución binomial es 


igual a n zy que su variancia es igual a n x (1 - 7). Por ejemplo, una moneda es 
lanzada 10 veces la esperanza del número de caras obtenidas es E(X) = 10 0.5 = 
5 y la variancia es V(X) = 10 0.5 0.5= 2.5. 


Modelos de variables aleatorias continuas 


La distribución normal 


La distribución normal es el modelo de distribución de probabilidades más 
importante en aplicaciones relacionadas con la agronomía y las ciencias 
ambientales. Si una variable aleatoria X tiene una distribución normal, su función 


© de densidad de probabilidad es: 
es 
U Z 


f= e 


La curva descripta por esta función es la gue se ve en la Figura 4.6 Los 


parámetros gue definen la distribución de probabilidad de esta variable X son su 
media (14) y su variancia (0%). Conociendo la media y la variancia de una variable 
aleatoria que tiene una distribución normal se conoce completamente su 
distribución. Una forma especial de la distribución normal es la distribución 
normal standard que resulta de restar, a cada uno de los valores de la variable, 
la media y el desvío standard de la distribución, como hemos visto algunas 
páginas atrás: 
4 Mah 
= -Hr Hx „8 A (4.15) 
Or Die Syn 
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Figura 4.6. 

Distribución Normal, 
curva de densidad de 
probabilidad. Las áreas 
que quedan bajo la curva 
miden probabilidades de 
que una variable con 
distribución normal tome 
valores en los intervalos 
correspondientes. 
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Como ocurre con toda distribución de probabilidades, el área bajo la curva 
de la función de densidad, es igual a 1 (es la probabilidad de la totalidad del 
espacio muestral). Además, la función es perfectamente simétrica alrededor de su 
media de lo que resulta que n(u - X0) = Nu + x,1, o), es decir, el valor de la 
densidad para la abscisa u- x es igual al valor de densidad para la abscisa u + X. 
Por ejemplo, Plu- o< X< uy) = Plu<sX< ut o)= 0.34 y Plu- o0<X<ut+to)= 
0.68. Al pie de la Figura 4.6 se pueden ver los porcentajes de área equivalentes a 
las probabilidades de que una variable aleatoria con distribución normal tome 
valores entre los puntos indicados. Por ejemplo, entre u- o y a + o está 
(aproximadamente) el 68% del área total bajo la curva lo que equivale a decir que 
la probabilidad de que la variable esté entre u- G y + ces, aproximadamente, 
igual a 0.68 y la probabilidad de que la variable esté entre u- 20 yut 2 GES, 
aproximadamente, igual a 0.95. En la práctica, los cálculos de probabilidades 
asociadas con áreas bajo la curva de la distribución normal se realizan a partir de 
tablas o mediante programas de computadora de uso muy sencillo. 

La función presenta su densidad máxima cuando la variable es igual a u 
para luego ir decreciendo y acercándose asintóticamente al eje de abscisas sin 
cortarlo nunca. La distribución normal es, en realidad, una familia de 
distribuciones que difieren en su media y/o en su variancia. La representación 
gráfica de distribuciones. normales con la misma variancia pero con distinta media 
se ve, como en la figura 4.7. . l 

Distribuciones normales 
con igual c“ y diferente 


u. 


En cambio, la representación gráfica de distribuciones normales con la. 
misma media pero con distintas variancias se ve como en la figura 4.8: 


Figura 4.8. 

Distribuciones normales 

con igual uh y diferente 
9 


G. 


La distribución normal standard (Z) es, simplemente, una distribución 
normal con media igual a O y variancia igual a 1 y sus probabilidades están 
extensivamente tabuladas. Dada la transformación de una variable normal (X) en 
normal standard (Z), la probabilidad acumulada correspondiente a un valor 
particular de X se puede leer fácilmente en una tabla de la distribución de Z 


puesto que: 
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Así que, dados M(1.,0) y dos números reales cualesquiera X4 Y Xo, CON Xq < X, 
tendríamos: 


Pla e b)= N(b; 1 0)-N(a; 1,0) 
== Ena- 0) 


La representaciones gráficas de la distribución normal standard (a)y 
su distribución de probabilidades acumuladas (b) son las representaciones en 
figura 4.9: 


de 
la 


Figura 4.9. Distribución 
normal standard: 


(a) Curva de densidad 
probabilidad. 

(b) Distribución 

de probabilidad 
acumulada. 


AAA AA 


Ejemplo: 

Una fábrica de objetos de aluminio produce cierto tipo de canal de aleación de 
aluminio. Se sabe que la rigidez de un canal producido por esta fábrica 
tomado al azar, medida en libras por pulgada? es una variable aleatoria con 
distribución normal con media u = 2425 (Ib/pulg“ Jya= 115 (Ib/pulg“ ). Esta © 
distribución se representa por la Figura 4.10. 


Figura 4.10. 


44 


Capuu 4 


Si se escoge al azar un canal de aleación de aluminio de este proceso:. 


(1) ¿cuál es la probabilidad de que tenga un valor de rigidez entre 2250 y 2425 
Ib/pulg“ 2 


= N(0)- N(11,52) 
= 0,5000 — 0,0643 
= 0,4357 

ver Figura 4.11 | 


(2) ¿cuál es la probabilidad de que tenga un valor de rigi idez entre 2250 y 2500 
Ib/pulg Ed 


o : 2250-2425) 
n 


P(2250 < X <2500)= A: < 


115 
= N(0,65)—N(-152) 
0,7422 0,0643 
06779" 


ver Figura 4.11 


Figura 4.11, 
, = 182 Es a: E 9.55. p . 
(3) ¿cuál es la m de que tenga un valor de rigidez entre 2525 y 2625 
Ib/pulg 0 | | 
2625—2425 2525-2425 
P(2525 < x <2625)= P| z < -A> < | | 
l g 115 l -115 
z N(1,74)- N (0,87). 
=.(),9591— 0,8078 
= 0,1513 
ver Figura 4.12 
Figura 4.12. 
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(4) ¿cuál es la probabilidad de que tenga | un valor de rigidez mayor de 2500 
Ib/pulg“ e ! , 
P(X > 2500) =1- P(X < 2500) 


pl, 2300 = 
| 115 

= 1- N(0,65) 

=1-0,7422 

= 0,2578 


ver Figura 4.13 


(5) ¿cuál es la probabilidad de que tenga: un valor. de rigidez menor de 2200 
Ib/pulg“ ? 


P(X < 2200)= (z< 
= N(-1,96) 
= 0,025 


ver Figura 4.14 
: Figura 4,14, 


A continuación presentaremos dos distribuciones que se emplean para el cálculo 
de probabilidades en situaciones especiales que veremos algunas clases más 


adelante. 
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Figura 4.15. Familia de 
distribuciones x` con 

- diferentes grados de - 
libertad. 


Capitulo 4 


La distribución 4 


Si Z4, Ls 50N variables normales standard independientes, la suma de sus 
cuadrados se dice que es una variable Ý (léase ji cuadrado) con” v grados de 
libertad. Es decir: 


2 2 2 2 
Y EL AL (4.16) 


El concepto de grados de libertad es un concepto del álgebra de 
espacios vectoriales. ES el nombre dado al número de observaciones inicialmente 
independientes que hay en una suma de cuadrados. No discutiremos aquí la base 
teórica de este concepto sino que lo abordaremos heurísticamente. 

El parámetro v define a la distribución É y hay una distribución f para 
cada valor de v, como puede verse en la figura 4.15: 


A 
Br... 


Las tablas de la distribución £ presentan los valores de 7" para algunas 
probabilidades específicas (ver Tabla en la página 128 y el menú Probabilidades 
y Cuantitles de Infostat). Veamos dos ejemplos de utilización de las tablas para 


Mas: 
P(X > 7.26) = P(7.26 < X15 < %) 
= 0.95 y P(X> 5.23) 
= P(5.23 < Zh < 0) 
= 0.99. 


La distribución t de Student 


Una distribución £ de Student es la distribución de probabilidad de una variable 
aleatoria que resulta de dividir una variable con distribución normal standard por 
la raíz cuadrada de una otra con distribución Ý dividida por sus grados de 
libertad:. 


A == : (4.17) 


donde Zo, Zi, Zo, Zn, SON N + 1 variables normales standard independientes. 
Esta es una distribución t de Student con n — 1 grados de libertad. (En la página 
427 se presenta la tabla de esta distribución. Ver, también, el menú 
Probabilidades y Cuantities de Infostat). 
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En la figura 4.16 se representan una distribución t de Student y una 
distribución normal con finales comparativos: 


4,16. Comparación entre 
las funciones de densidad 
de 

las distribuciones normal 
standard y £ de Student 
con 2 grados de libertad 


0.45 : s 


Ejercicios 


4.1. Un inversor que dispone de $100.000 para realizar una inversión 
tiene dos alternativas. La primera es colocar el dinero en un plan de 
inversión con una rentabilidad anual fija del 15%. La segunda 
alternativa es colocar el dinero en otro plan de inversión cuya 
rentabilidad anual varía entre el 5 y el 30 % según las condiciones 
económicas que prevalezcan. La historia de este último tipo de. 
inversión permite suponer que la distribución de probabilidad de sus 


valores de rentabilidad es la que figura en la tabla: 

AO oTo 
anual (% 

| 0,26 | 034 | 023 | 008 | 001 

Si este Er ea correcto: 

a ¿Que probabilidad habría de obtener mayor PPS A con el 

segundo plan que con el primero? O 60 

b, ¿Cuál sería la rentabilidad esperada con el segundo plan? 2.0 pa 

c. dual sería el desvío standard de la rentabilidad del segundo plan? ° qe 

d. A partir de los resultados anteriores, explicar cuál plan le conviene 

elegir al inversor. 


4.2. La probabilidad de infección con oídio (enfermedad fúngica) en plantas | 
de zapallito redondo en las quintas del cinturón hortícola del Gran 
Buenos Aires es 0.15. Si usted es contratado por el Ministerio de 
Asuntos Agrarios de la provincia de Buenos Aires para elaborar un 
informe acerca del estado de la enfermedad en dicha área y decide 
visitar 15 quintas, ¿cuál es di probabilidad esperada para los siguientes 
sucesos: 

a. A lo sumo 3 quintas presenten cultivos infectados, 
b. Sólo 5 quintas presenten cultivos infectados, 
c. Al menos 4 quintas presenten cultivos infectados. 


4.3. Se denomina Poder Germinativo a la proporción de semillas de un lote 
que germinan cuando se las coloca en condiciones apropiadas de tempe- 
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4.4, 


4.5. 


4.6. 


an DR 


ratura y humedad. La etiqueta de una bolsa de semillas dice que su poder 
germinativo es de 95%, Para evaluar la veracidad de esta especificación 
se toman de la bolsa 10 semillas al azar se4 las coloca durante 10 días en 
condiciones apropiadas para la germinación. Al cabo: de ese período se 
cuenta y registra el número de semillas que germinaron: m 
a. ¿De qué tipo es la variable aleatoria registrada? hht 
b, ¿Qué valores puede tomar dicha variable aleatoria? 
En caso de que lo que dice la etiqueta fuera cierto: © 
c. ¿Cuál sería la probabilidad de que, en la prueba descripta, germi- 
naran todas las semillas? O; v% 
d ¿Cuál sería la probabilidad de que, en la prueba descripta, queda- 
ran 2 semillas sin germinar? OM | 
e. ¿Cuál sería la probabilidad de que, en la prueba descripta, queda- 
ran 2 o más sín germinar? ®© | 
£ ¿cuánto valdrían la esperanza y la variancia del número de semillas 
germinadas EGA e las (a) -Ú : 


| 
i | Ve W í 
lo VJE K LES 


Existen insectos como el Tatadios (Mantis religiosa) que son considera- 
dos útiles para la agricultura porque se alimentan de otros insectos que 
dañan a los cultivos. Si cuando un Tatadios encuentra un insecto presa 
tiene una probabilidad de capturarlo de 0,25 


g. ¿Cuántos insectos debe encontrar para que la probabilidad de que 
capture al menos uno sea se 0,8? 

Si encontrara esa cantidad de insectos presa por día: 

h. ¿Cuál sería el número esperado insectos que cap tura por día? 

į ¿Cuánto variaría el número de insectos que captura por día? 


La duración de la vida de las plantas del pasto bianual Bromus unioloides 
es una variable aleatoria X que puede tomar valores ente O y 2 años. Si 
la función de densidad de probabilidad de dicha variable aleatoria fuera: 


Joji ,para0 s x< 2. 


Graficar la función f(x). 

Verificar que f(x) es una función de densidad. 

Calcular la función de distribución de probabilidades 

Calcular la probabilidad de que una planta de Bromus uni oloides toma- 

da al azar viva menos que un año l 

e. Calcular la probabilidad de que una planta de Bromus unioloides toma- 
da al azar viva más que un año y medio 

f. Calcular la probabilidad de que una planta de Bromus unioloides toma- 
da al azar viva entre una año y un año y medio? | 

g. Verificar gue las tres probabilidades calculadas suman 1 y explicar 

por qué, 

h. Calcular la esperanza matemática y la variancia de la duración de la 

vida de una planta de Bromus unioloides tomada al azar, 


El peso de los terneros de raza Aberdeen Angus recién nacidos es una 
variable aleatoria con distribución aproximadamente normal con media 
de 32 kg y varianza de 6,25 kg. 
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4.8. 


4.6. 


410, 


50 


a. ¿Cuál es la probabilidad de que un ternero de raza Aberdeen Angus 
recién nacido tomado al azar pese entre 27 kg y 37 kg? 

b. ¿Cuál es la probabilidad de que un ternero de raza Aberdeen Ángus 
recién nacido tomado al azar pese más de 39 kg? 

c. ¿Cuál es el peso que deja por debajo al 90% de los pesos de todos 
los terneros Aberdeen Angus recién nacidos? 

d. ¿Cual es la probabilidad de que entre dos terneros de raza 
Aberdeen Angus recién nacidos tomados al azar uno pese más de 32 
kg y el otro menos de 32 kg? 


En un área de la provincia de La Pampa, el 25% de los establecimientos 
han incorporado especies forrajeras mejoradas en sus pastizales 
naturales mediante intersiembra. En -dichos establecimientos, la 
duración de la invernada (engorde de los novillos para faena) es una 
variable aleatoria con distribución aproximadamente Normal, con media 
de 650 días y desviación estándar de 45 días. En cambio, en los 
establecimientos restantes, la duración de la invernada es una variable 

aleatoria con distribución aproximadamente Normal, con media de 770 

-= y desviación estándar de 85 días. 

a ¿Cuál es la probabilidad de que en una muestra de 25 
establecimientos de esta área tomados al azar, 5 o menos hayan 
incorporado especies forrajeras mejoradas? 

b, ¿Cuál es la probabilidad de que la duración de la invernada se 
prolongue más de 770. días en los establecimientos que han 
incorporado especies forrajeras mejoradas? 

c. ¿Cual es la probabilidad de que la duración de la invernada sea 
menor que 650 días en los establecimientos que no han incorporado 
especies forrajeras mejoradas? 


El 40% de los animales de un rodeo son de raza A y el resto, de raza 8. 
Si el peso de los animales de la raza A sigue una distribución normal con 


media 250 kg y varianza 400 kg? y el peso de los animales de la raza 8 


sigue una distribución aproximadamente normal con media 270 kg y 
desvío típico 30 kg: i 
¿Qué porcentaje de animales tiene peso superior a 240 kg? 


En un área del oeste de la Región Pampeana, se ha determinado que la 


“sequía es el principal factor que afecta la seguridad de cosecha de 


cereales de invierno como-el trigo y el centeno. En esta área, el total de 

lluvias inverno-primaveralés es una variable aleatoria con distribución 

aproximadamente normal con media igual a 300 mm y desvío standard 

igual a 100 mm. Cuando durante el período inverno-primaveral llueven 

menos de de.250 mm se compromete seriamente la cosecha de trigo, en 

cambio el cultivo de centeno, más resistente a la al produce 

mientras llueva más de 200 mm 

a. ¿Cuáles la seguridad de cosecha de trigo en esta área? 

b, ¿Cuáles la seguridad de cosecha de centeno? 

c, ¿Cual es la probabilidad de que se pierda la cosecha de trigo pero no 
la de centeno? 

d, ¿Cudi es la probabilidad de que no se pierda ninguna nd las dos 
cosechas? 
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DISTRIBUCIONES POR MUESTREO | 
El procedimiento estadístico de extracción de información útil es una secuencia 
que comienza con la obtención de una muestra aleatoria de -m unidades 
muestrales tomadas al azar de una población de tamaño N, continúa con el 
registro de los valores que toma una variable aleatoria en cada una de las 
unidades muestrales y culmina con la aplicación de la Teoría. de Probabilidades 
para realizar una afirmación acerca de los valores de uno o más parámetros de 
la distribución de probabilidad de la variables aleatoria en la población. Esta 
última afirmación es conocida como inferencia estadística y es realizada a partir 
de funciones de los valores muestrales de la variable aleatoria denominadas 
genéricamente estadísticas. 


"Las estadísticas muestrales son entonces funciones “de las los valores 
registrados de la variable aleatoria. Un ejemplo de una estadística es la media 
aritmética de los valores registrados en la muestra. Tanto la media aritmética 
muestral como cualquier otra estadística es por lo tanto una función de variables 
aleatorias, por ello es también una variable aleatoria. Su valor varía de muestra 
en muestra de modo que, antes de obtener la muestra, hay incertidumbre acerca . 
de qué valor tomará exactamente la estadística. Como cualquier variable 
aleatoria, cada estadística tiene una distribución “de probabilidad. Para poder 
hacer inferencia estadística resulta necesario conocer la distribución de 
probabilidades de las estadísticas utilizadas. La distribución de una estadística 
particular depende de (a) la distribución de probabilidad de la variable aleatoria 
registrada en la población, (b) del tamaño de la muestra aleatoria. 


Para que la muestra sea realmente una muestra aleatoria es necesario 
que contenga un conjunto de n unidades muestrales extraídos de la población 
utilizando un procedimiento de sorteo que otorgue igual probabilidad de entrar en 
dicho conjunto a todas las unidades de la población. De este modo, las 
realizaciones de la variable aleatoria X4, X2, ..., X, registradas en cada una de las 
unidades muestrales extraídas (ai) son todas independientes entre ellas y (b) 
provienen de la misma distribución de probabilidades. Estas condiciones son 
necesarias para que los estadísticos calculados tengan las distribuciones de 
probabilidad que presentamos aquí. 


La media muestral y la variancia muestral 


Entre los distintos estadísticos que se pueden calcular a partir de los datos 
“contenidos en una muestra, hay dos que resaltan por su importancia y sus 
aplicaciones: la media muestral y la llamada variancia muestral. Tal como la 
hemos definido el capítulo 2, la media muestral (x ) y la así llamada variancia 


2 
muestral (5) se calculan como: 


1=-=)x, y (5.1) 


jas (x, =x) (5.2) 


La razón por la cual son tan importantes estos dos estadísticos es que 
sirven para estimar la media y la variancia de la variable aleatoria estudiada en la 
población total. Ahora, un estadístico, dado que no es otra cosa que una cantidad 
que se calcula a partir de los datos de una muestra, es, como los datos de la 
muestra, una variable aleatoria. Entonces, cuando se tomen muchas muestras, 
mostrarán la variación propia de una variable aleatoria de muestra en muestra. 
Así que se deben conocer las propiedades de estas dos variables aleatorias tan 
importantes, es decir, cómo se espera que sea su comportamiento al extraer 
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muestras y, sobre todo, cómo cambiarán sus propiedades, al cambiar el tamaño 
de las muestras que se tomen. Por ejemplo, una. propiedad fundamental de la 
media muestral es su esperanza. Es muy fácil deducir que si la esperanza de una 
variable aleatoria x es igual a u, entonces la esperanza de su media muestral 
será, también: E(X ) = u. Como se dijo antes, en el muestreo de una población, la 
esperanza de todas las medias muestrales que se pueden calcular es igual a la 
media poblacional (4). Pero se debe considerar que dichas medias muestrales 
mostrarán una variación de muestra en muestra, es decir, entre todos los valores 
posibles que la media muestral puede tomar: esa es la variancia de la media 


2 (f= : i i 7 00d 
muestral, © (x). Dado que la variancia de la variable aleatoria x en la población 


es igual a g, la variancia de la media muestral es igual ao*(x)= Eg- uY | y 
2 


2(— o s 
es fácil demostrar gue o? (x) = — , que es una propiedad muy importante de la 
l no | 


variancia de la media muestral puesto que está indicando que la distribución de la 
media muestral se concentra cada vez más en el entorno de y, a medida que 
aumenta el tamaño de la muestra (n). Esto es lo mismo que decir que, cuanto 
mayor sea el tamaño muestral, más confianza se podrá tener en que la media de 
la muestra estará más cerca de la media poblacional desconocida (4). 


Generación de la distribución por muestreo 
| de una estadística 


Veremos un ejemplo de cómo se puede generar la distribución por muestreo de 
una estadística. Supongamos que una distribuidora de bebidas vende un refresco 
en 3 tamaños de botella: 500 cm, 750 em“ y 900 em“. El 50% de los refrescos 
que vende son de 500 cm, el 30%, de 750 cm“ y el:20% restante de 900 cm”. En 
un puesto de venta aparecen 2 clientes. Sea X; el tamaño de botella que compra 
el primer cliente y X, el tamaño de botella que compra el segundo cliente y 
supongamos que X; y X son independientes, es decir, suponemos que la compra 
realizada por el primer cliente no influye para nada en la compra que habrá de 
hacer el segundo cliente. Tanto X; como X; tiene la distribución de probabilidad 
que se mencionó antes, es decir: 


| Cuadro 5.1 


Así que los dos clientes constituyen una muestral aleatoria de esta 
distribución de probabilidades. La siguiente tabla enumera todos los posibles 
pares de valores de X,-y X2 con sus respectivas probabilidades calculadas bajo el 


supuesto de independencia y los valores de media ( X ) resultantes. 


= 


olaj x 
© ; 
N 
a x 
E B 
ks 
oyo ¡oo 
| ADi. 
SN” 
> 


ojojo ole 
— 
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o 
o 
E 
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ocolulo ula lulo ad. | 
NlolnlalnilolNio! M. 
alolalolalolualo 


Por tanto, la distribución por muestreo de X es: 
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Cuadro 5.3 


| 

Tanto la media de la distribución original como la media de la distribución 

de X son iguales a 655, confirmando que EX ) = u La variancia de la 
distribución original es 26725 mientras que la variancia de la distribución de X es 
igual a 13362.5, confirmando que (X) = (œin). En nuestro ejemplo n = 2 así 
que 13362.5 = 26725/2. Además, vemos que la distribución de probabilidad de 
X es diferente de la de X, primero porque como vimos recién, X tiene menor 
variancia que X y también porque la probabilidad está algo más concentrada en 


los valores cercanos a u., la media poblacional. Para muestras de mayor tamaño, 
estas características son más acentuadas. | : 


La relación entre el tamaño las muestras y la distribución de probabilidad 


de la media muestral es definida por el teorema más importante de la estadística, 
denominado Teorema Central del Límite cuyo enunciado se presenta a 
continuación. Este teorema es fundamental para desarrollar todas las ' 
herramientas de inferencia estadística que veremos más adelante para, por 
ejemplo, estimar la media poblacional de una variable aleatoria con una precisión 
deseada y conocida. | 


El Teorema Central del Límite 


El Teorema Central de Límite (TCL) en palabras, dice que sí una población tiene 
una media y variancia o, finitas, entonces, a medida que el tamaño de la 
muestra (n) aumenta, la distribución de la media de la muestra (x), tiende a la 


2 


ed i a 3 e se- 
distribución normal con media u y variancia — . En términos de la distribución 
n 


PÍx <%,)= ŽE) 
| | | (5.3) 


© donde x, es un valor particular de x . 


normal standard: 


La precisión de esta probabilidad depende del tamaño de la muestra y de 
la distribución de la variable aleatoria X. Si X tiene distribución normal, las 
probabilidades serán exactas, sin importar cuán pequeña sea la muestra. Si no se 
conoce la distribución de X, la probabilidad será más exacta cuanto mayor sea n. 


Ejemplo. 

Una empresa produce bolsas de un producto agroquímico con un peso 
medio de 50 kg y una variancia de 4 kg’. Se toma una muestra de 100 
“bolsas. Asumiendo que los pesos de las bolsas son independientes, 
según el TCL, el peso medio de una muestra, M, deberia- distribuirse de 
manera aproximadamente © normal así que, podemos calcular 
probabilidades. Por ejemplo; 
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` 


P(M < 49 7) n 


= P(z <-1.5) 
= 0,0668 


g 97-5 
P| ze l == 


PÍM >S0A)=1- Az < 50.4- 50450) 


2/4100 
=1-Plz<+2.0) 
=1-0.9773 

= 0.0227 


P(49.8< M <50.6)= He | y H- B 
72/100- 2/4100 ): 


= 0.84000 


A continuación, aplicando el TCL, veremos cómo es la distribución de 
algunos estadísticos de usó muy común, cuando se efectúan muestreos sobre 
distintos tipos de poblaciones. 


Distribución por muestreo de la media 


Hemos visto, al principio del capítulo, que la media muestral, X, tiene esperanza 
igual a y variancia igual a (5? /n) y, por ende, error standard igual a (c/n) y 
que cuando n > œ, > 0. El TCL establece que, cuando n es grange, la 


función de distribución acumulativa de x es; 


P(x<xp)= pu j (5.4) 
y E 


VA 


F= bak Ke 
Es decir gue / es una variable aleatoria con distribución normal standard. 
a 


Distribución por muestreo de la diferencia entre 
dos medias (muestras independientes) 


Asimismo, más allá del interés en estimar la probabilidad de una media muestral 
determinada, muchas veces lo que interesa realmente es la diferencia entre dos 
medias muestrales, o sea, la comparación de dos medias muestrales. Dadas dos 
muestras tomadas independientemente una de la otra (de dos poblaciones con 


medias ¿1 y 2), con tamaños muestrales n, y n2, con medias X; y X, , nos interesa © 
utilizar la diferencia entre las medias muestrales, AX = X — X, para estimar la 


verdadera diferencia entre los parámetros poblacionales, es decir, entre 44 y 42, 
Au = 4h - o. Según el TCL, la distribución por muestreo de AX se aproxima a una 
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distribución normal con media ÀH y error standard alAz)=, 


ad 
(donde O; y a son las variancias de la variable de interés en las dos 


poblaciones, respectivamente) . cuando Mm y M2 són grandes. Así que la 
probabilidad de una dada diferencia puede aproximarse | mediante la expresión: 


ca 


EVE: Ax. Au) | 
PÍAR < AX, a N == | 


Ejemplo. 

El rendimiento.medio en [Kg/Ha] de maíz en la localidad A es de 4700 con 
una variancia de 47000 [Kg/ha]? y en la localidad B, es de 4200 [Kg/Ha] 
con una variancia de 100000 [Kg/Haf. Si se eligen al azar 49 
establecimientos de la localidad A y 80 de la localidad B y se determinan 
sus rendimientos medios de maíz, ¿cuál es la probabilidad de que el 
rendimiento medio de la muestra Á sea por lo menos 550 [Kg/Ha] mayor 
que el de la muestra B? bí 


Au = 4700 — 4200 
© = 500 [Kg/Ha]y 


147000 100000 
2 N49 80 


= 47.00 
La probabilidad buscada es: 
5 
P(AT>550)=1- MA) 
47 
= | — N(1.064) y 
= 0.1446 


Distribución por muestreo de la variancia muestral 


- Si la variable aleatoria x tiene distribución Coma! en la o entonces la 
distribución por muestreo de la variancia muestral, $% , puéde obtenerse 


2 


des 520 7’ es decir que el estadístico muestral que tiene distribución 
n-i 


mel | 
É o Ds, donde x ¡es una distribución Y con n — 1 grados de libertad 


y. 0? es la variancia de x en la población. 


REE cd | X- 
Distribución por muestreo de 


Cuando no se conoce o, ya no se puede utilizar la Nanable CON que, según el 
G 


X 

TCL tiene distribución normal enaar En ese caso, se usa = l que tiene 

i ; Ss Í 7 A y 

distribución t de Student que presentamos en el capítulo 4. Dada una muestra de 
tamaño n: 
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Di P A y 


+ 


SEN xo=A| 
P(x < xo) m F < 2.4) (5.6) 
donde s es el desvío standard muestral y Ín €S una variable tde Student con n — 
1 grados de libertad. -— 
Ejercicios 


51 Sea la variable aleatoria X cuya distribución de probabilidad es la 


siguiente: SA, | 
| lx [slets s] 


a Graficar la distribución de probabilidades de X. 


2 
b, Calcular 4i la esperanza de Xy O, la variancia de X. 


c. Hallar la distribución por muestreo de X2 la media muestral de una 
muestra aleatoría de tamaño n = 2, Para ello, determinar todos los 
valores que puede tomar X2 y encontrar la probabilidad asociada 
con cada uno de ellos. Graficar y comparar con la distribución 
producida en a. | 


| 2 
d. Usar el resultado encontrado en (b) para obtener HY, yO 35, . 


2 
e. ¿Que relaciones se verifican entre H y MX, y entre © y 
pa 
(O 
KI” 


D2: Entina población de plantas de cebada, hay dos genotipos claramente 
distinguibles por la cantidad de hileras de granos en sus espigas: uno de 
ellos tiene 2 hileras y el otro, 6 hileras. La población está compuesta por 
un 70% de plantas de 2 hileras de granos y un 30% de plantas de 6 
hileras de granos. ! 


a. Calcular la esperanza y la variancia del número de hileras de granos 
por planta en esta población, 

b, Detallar las 8 diferentes composiciones posibles de las muestras - 
aleatorias de 3 plantas obtenidas de esta población. | 

c. Para cada una, calcular su probabilidad y la medía muestral de los el 
números de hileras de granos, 

d. Calcular la esperanza y la variancia de las.medias muestrales 
obtenidas en el punto (c). | 

e. ¿Qué relaciones se observan entre los parámetros calculados en el — 
punto (d) y los calculados en el punto (a)? 


5.3 ` Suponer que una muestra aleatoria de tamaño n = 25, es seleccionada de 
una población con media u, y desvío estándar o. Para cada uno de los 


siguientes valores de u y o, determinar los valores de “*y?:: 
(a) u = 10 y o = 3; (b) p = 100 y o = 25; (c) y = 20 y o = 40; (d) u= 10 y o 
= 100, i 
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5.6 


pre [ee 
concentración de Po ppr) | <01 | leros: 1“205-| 


Si el peso de los novillos de raza Aberdeen Angus de 36 meses de edad 
es una variable aleatoria con distribución normal con valor esperado de 
420 kg y variancia 64 kg2: 


a. ¿Cuál es la probabilidad de que un novillo tomado al azar pese a lo 
sumo 425 kg? EFE i 


b. ¿Cuál es la probabilidad de gue un novillo tomado al azar pese 


exactamente 420 kg? © E 
c ¿Cuál es la probabilidad de que dos o más entre cuatro novillos 


tomados al azar pesen a lo sumo 425 kg? © 


d ¿Cuál es la probabilidad de que la media de los pesos de cuatro 


novillos tomados al azar sea a lo sumo 425 kg? 2 0040 | 
e. ¿Qué distribución de probabilidad aproximada tienen las medias 
aritméticas de los pesos de 4 novillos tomados al azar? ve Ml 


Los barros cloacales son enmiendas orgánicas que se utilizan para 
mejorar la productividad de forraje en algunos pastizales. Sin embargo, - 
son ricos en metales pesados tóxicos como el plomo que puede ser 
absorbido por las plantas y acumularse luego en la carne de los animales 
que las comen. Con fines bromatológicos, la carne es clasificada. en las 
siguientes tres categorías según su contenido de plomo en partes por 


millón (ppm = mg / kg) : 


Si la concentración de plomo en la carne de los terneros producidos en: 
lotes tratados con barros cloacales es una variable aleatoria con 
distribución aproximadamente normal con media poblacional u = 0.2 ppm y 
varianza a“ = 0.02 ppm. 


a. ¿Cual es la probabilidad de que la carne de un ternero tomado al azar 
en un establecimiento que aplica barros cloacales resulte clasificada 
como Levemente Tóxica o Tóxica? 

b, ¿Cuál es la probabilidad de la carne de dos o más entre nueve 
terneros tomados al azar resulte clasificada como Levemente 
Tóxica o Tóxica? 

c. ¿Cuál es la probabilidad de que la medía aritmética de la 
concentración de plomo en la carne de una muestra de 9 terneros 
tomados al azar corresponda a las categorías Levemente. Tóxica o 


Tóxica? 


En una región semi-desértica donde llueven 200 mm/año es razonable 
suponer que la productividad primaria neta anual (PPNA) promedio de los 
pastizales es de 86 g/m* con un desvío estandar de 40 g/m. 
Consideremos una muestra cualquiera de 40 pastizales tomados al azar 


definamos los siguientes estadísticos: 


40 ed l 
E ne A8. © 
js 2 | E DAN | y) 


¡=1 
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¿Cuál es el valor esperado de y ? 


D 


b. ¿Cuál es la varianza de y > l | 

¿Qué distribución de probabilidad aproximada tiene y ? 

| ¿Cuál es la probabilidad que y supere los 90 g/m*2 

e, ¿Cuál es la probabilidad de que 2 entre 3 muestras de 40 pastizales 
tomados al azar tengan valores de y que superen los 90 g/m*? 

f. ¿Cuál es el valor esperado de s °? | 

g. ¿Qué distribución de probabilidad aproximada tiene del estadístico 
y-86 | 
? 

S 


J40 


57 El siguiente conjunto de datos representa un censo efectuado sobre el 
tamaño de manzanas en una línea de empaque del Alto Valle del Río 
Negro durante la época de cosecha. De acuerdo a estos datos, el tamafío 
de las manzanas (diámetro en milímetros) sigue una distribución Normal 
con u = 78 mm y o= 4 mm. En base a esta tabla, escoger 10 muestras 
aleatorias de n =10 y probar la distribución de los estimadores y su 
relación con los parámetros. 


a 2 


EE: 3 4 5 6 |7 |8 | 9 |10| 
74.6 | 79.3 | 76.2 | 79.5 | 78.2 | 73.9 | 846 


TR AAA 
11745 [737 | 750 
79.8 | 817 | 818 | 831 | 75.6 | 75.8 | 766 | 785 | 74.2 | 752 
75.7 | 85.0 | 83.6 | 86.2 | 76.8 | 759 | 834 
775 | 789 | 873 | 754 | 777 | 76.0 | 69.8 | 80.7 | 815 | 781 | 
82.3 | 783 177.2 1799 | 731 | 773 |.749 | 839 | 743 | 79.0 | 


——— 


74.8 | 78.6 | 72.6 | 80.8 | 80.5 | 80.3 | 820 | 710 | 829 | 817 | 


al | 


El rendimiento promedio de los cultivos de un híbrido de maíz en.la 
región de la Pampa Ondulada es de 10 tn/ha y que el desvío estándar es 
de 1,5 tn/ha. i 


a. Identificar a la población, a las unidades muestrales y a la variable © 
© aleatoria a las que se hace referencia, | 


Supongamos que se tomarán de la región 25 cultivos de de dicho híbrido 
elegidos al azar y se calculará la media aritmética de sus rendimientos: 


b. Explicar por qué la media aritmética es una variable aleatoria, ¿Cuál 
es la población correspondiente? | 

c ¿Qué distribución de probabilidad aproximada tiene la media 
aritmética en cuestión? | 

d. ¿Cuál es la probabilidad de que dicha media aritmética supere los — 
10.500 kg/ha? = 

e. ¿Cuál es la probabilidad de que, entre 3 muestras aleatorias como la 
referida, dos muestras tengan media aritmética de los rendimientos 
mayor que 10.500 kg/ha de materia seca/m“? 
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29. 


Una compañía envasadora de harina afirma que los paquetes que produce 
nena un peso promedio de 1000 g y que la variancia de los pesos es de 
36 g“. : 

Si la afirmación de la compañía fuese cierta: 


a. ¿Cuál sería la distribución de probabilidad aproximada de la media 
aritmética de los pesos de 36 paquetes tomados al azar? 

b, ¿Cuál sería la probabilidad de que la media aritmética de los pesos 
de 36 paquetes tomados al azar estuviese nas entre 998 y 
1002 9? 


Teniendo en cuenta las respuestas a los puntos anteriores: 


e Discutir en qué medida se puede dar crédito a la afirmación de la 
compañía si se encuentra que la media aritmética de los pesos de 36 
paquetes tomados al azar es de 998 g. 
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ESTIMACIÓN DE PARÁMETROS 


En un estudio acerca de la disponibilidad de alimento para la dieta de elefantes 
marinos en la Península de Valdés, se necesita determinar la biomasa promedio de 
las presas disponibles de una determinada especie. Obviamente es imposible pesar a 
todas las presas de esa especie que se encuentran en el espacio que los elefantes 
marinos pueden explorar en la plataforma continental en una temporada. En cambio, 
se puede diseñar un muestreo aleatorio que abarque el área de distribución de 
elefantes marinos en el mar (descripta por seguimiento satelital en campañas 
anteriores), capturar en cada sitio una presa de-la especie en cuestión y pesarla. El 
conjunto de las capturas tomadas al azar constituye una muestra aleatoria, 
representativa de la población formada por todos los animales que hubieran podido 
ser capturados. El peso es una variable aleatoria que puede tomar diferentes 


valores según cual sea el animal capturado. 


Nuestra intención al tomar una muestra es la de hacer una inferencia. Este 
término lo usamos en Estadística para denominar al procedimiento con el que 
hacemos afirmaciones acerca de parámetros de la población mediante los números 
que observamos en la muestra. En el caso del estudio sobre la dieta de los elefantes 
marinos, el parámetro sobre el cual se hace inferencia es el peso promedio de todas 
las presas de la población. Para hacer esta inferencia, es fundamental que cualquier 
individuo de la población de interés haya tenido igual probabilidad de entrar en la 
muestra. En ese caso, la muestra es representativa de la población: Una muestra 
aleatoria formada por n unidades de observación provee una colección de n valores 
(realizaciones) de la variable aleatoria. Estas realizaciones (a) son independientes y 
(b) provienen de la misma distribución de probabilidad. 


Para tener una idea del valor del parámetro que desconocemos tomamos una 
muestra de los pesos de las presas. Supongamos que son 100 presas en la muestra. 
Con una balanza de la precisión adecuada y con mucho cuidado, medimos los pesos 
de las 100 presas de la muestra y calculamos su promedio. ¿Qué nos dice el valor de 
la media de la muestra acerca de la media de la población? Por un lado, 
definitivamente no esperamos que el valor de la media de la muestra coincida 
exactamente con el de la población. Por otra parte, no tenemos mejor información 
respecto a la media de la población que la que extraigamos de la muestra. Por último, 
sería muy extraño que si la población de presas tiene, por decir algo, un peso 
promedio de 250g, nos tocarán 100 presas en la muestra con un promedio de, 
digamos, 50g. Fíjese que no decimos “imposible” sino “raro” o “extraño”. Además, si 
alguien nos preguntara: “¿cuánto es el peso promedio de la población de presas””, le 


contestaríamos diciendo el valor que hayamos visto en la muestra y a nuestra . 
afirmación deberíamos agregarle alguna advertencia tal como: "más o menos”, o. 


"aproximadamente". 


A un valor calculado con los datos de una muestra para jugar el papel de 
decir, aproximadamente, el valor de un parámetro de la población, lo denominamos 
estimador. Cuando decimos que se trata de un estimador puntual queremos decir 
que para estimar el parámetro estamos usando un valor único. Volviendo al ejemplo 
de las presas de los elefantes marinos: si la muestra de 100 presas arroja un valor del 
promedio de 235 g, diríamos que estimamos el promedio de la población en 235 g. 

Es decir que dada una población de una variable “aleatoria claramente 
identificada, el proceso de toma de muestras desemboca en el análisis de los valores 


de dicha variable aleatoria en la muestra con el fin de extraer de ella alguna 


conclusión acerca de la información contenida en la población, que seguirá siendo 
objetivamente desconocida. En clases anteriores habíamos definido a.las cantidades 
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calculadas a partir de los datos de la muestra como estadísticos y a las cantidades 
desconocidas contenidas en la población como parámetros. Entonces, si se habrá 
de decidir acerca de un parámetro basándose en lo que el estadístico dice, se 
pueden hacer dos cosas: (i) especular acerca del valor del parámetro poblacional 
desconocido basándose en la información que brinda un estadístico muestral 
conocido o, (ii) decidir si se acepta que el valor del parámetro es igual, mayor o 
menor que una cantidad dada. En ambos casos se estará haciendo una inferencia 
estadística. En el primer caso, se estará haciendo una estimación del parámetro y 
al estadístico que se utiliza para estimar al parámetro se le llama, justamente, 
estimador. En el segundo, se estará poniendo a prueba una hipótesis. En este 
capítulo nos concentraremos en la estimación de parámetros y en el siguiente 
trataremos el tema de las pruebas de hipótesis acerca de los parámetros 


poblacionales. 
La estimación de un parámetro puede consistir simplemente en proponer un 


valor posible para el parámetro basándose en el valor que tiene el estimador, como 
hicimos en el ejemplo de los pesos de las presas de los elefantes marinos. Este tipo 
-de estimación se denomina estimación puntual. Otra manera de estimar un 
parámetro consiste en proponer, con un grado calculado de riesgo de cometer un 
error, un intervalo de valores posibles para el parámetro, lo que se denomina 
estimación por intervalo. i : 


Estimación puntual 


En lo sucesivo emplearemos el símbolo © para designar a un parámetro 


genéricamente, al símbolo 9 para designar a su estimador y n será el tamaňo de la 
"muestra. 


La función matemática gue define al estimador será, en general, la misma 
que define al parámetro. Por ejemplo, si el parámetro desconocido es la proporción 
(7) de alguna característica en una población de tamaño N - es decir que z = (X/N), 
donde X es la cantidad de unidades que poseen dicha característica en la población — 
entonces, el estimador será el valor p = (x/n), donde x es la cantidad de unidades que 
poseen dicha característica en una muestra de tamaño n y p es la proporción de las 


mismas. | 
Cuando se tiene una fórmula para estimar y se aplica, a una muestra 


aleatoria, el resultado es aleatorio, es decir los estimadores son variables aleatorias. 
Como cualquier variable aleatoria, el estimador tiene 


e distribución de probabilidad. 


e valor esperado: E(8). 
e Variancia y desvío standard. 


Características deseables en un buen estimador 


Ausencia de sesgo en la estimación 


Una propiedad muy deseable de un estimador es que su valor esperado coincida con 
el del parámetro que se pretende estimar. Al menos, quisiéramos que el valor 
esperado no difiera mucho del parámetro estimado. Por esa razón es importante la 
cantidad que, técnicamente llamamos sesgo. El sesgo es la diferencia entre el valor 


esperado del estimador y el parámetro que estima: 
; Sesgo = E(Ó) - 0. „o osla (61) 
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Si el sesgo es cero, se dice que el estimador es insesgado y ésta es una 
característica buena para un estimador. 


Variancia mínima 


Supongamos que 0, y 0, son dos estimadores insesgados de 6. Aunque la 


distribución de cada uno de los dos estimadores tiene media igual a 0 las 
dispersiones de sus valores alrededor de 9 podrían ser diferentes. Entre todos los 
estimadores insesgados de 6, conviene seleccionar aquél que tenga menor variancia. 


El Ó resultante se denomina estimador insesgado con variancia mínima de 6. Así 
que el estimador insesgado con variancia mínima es el que, entre todos los 
estimadores insesgados, tendrá mayor probabilidad de producir una estimación 
cercana al verdadero valor 9. 


Estimación consistente 
Una vez obtenido un valor paraÓ a partir de la muestra, es posible que exista una 


diferencia entre ese valor y el verdadero valor del parámetro (0). A la diferencia 0-0 
se la denomina error muestral, y se debe, como su nombre lo indica, a que cuando 
se toman varias muestras, éstas pueden diferir entre si. Entonces, otra característica 
deseable en un buen estimador es que las estimaciones que genere estén 
típicamente cercanas al valor del parámetro, o sea, que tengan baja probabilidad de 
tener un error muestral importante. Se dice que un estimador-es consistente si 


Pló-o > s)> O cuando n > «o. En palabras, un estimador es consistente si, a 


medida que aumenta el tamaño de la muestra, la probabilidad del error muestral 
tiende a ser más pequeña que cualquier cantidad pequeña (s) que podamos imaginar. 
Un estimador consistente entonces tiene una alta probabilidad de tomar un valor 
cercano al valor del parámetro | 


Métodos de estimación puntual 


Hay varios métodos de estimación pero en este curso presentaremos solamente tres. 
En esta clase veremos dos de ellos (el método de máxima verosimilitud y el método 
de los momentos) y en la clase correspondiente a Regresión Lineal veremos el otro 
(el método de mínimos cuadrados). 


El método de los momentos 


Se denomina momento de orden 1 de una distribución de probabilidades para una 
variable discreta X, o de una función de densidad para una variable continua X, al 


M 


valor de E(X). Análogamente, el momento de orden 2 de tales funciones será ER). 


Los momentos pueden estar centrados en algún número de la distribución. Por 
A . 2 

ejemplo, el momento de orden 2 centrado en la media es EX - Y] o sea, la 
variancia. 


Este es el método más sencillo y directo y consiste, simplemente, en igualar 
los momentos de orden 1 y 2 muestrales a los correspondientes momentos 


poblacionales y, de allí, despejar y o. 


Ejemplo. Se efectúan 100 lanzamientos de 3 monedas y se obtienen los 
siguientes resultados: 11 veces resultó en 3 cruces, 36 veces resultó en 2 
cruces y 1 sol, 38 veces resultó en 1 cruz y 2 soles y 15 veces resultó en 3 
soles. Obtenga la estimación del parámetro z de la correspondiente 
distribución binomial de la variable número de soles. 
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Calculamos la media muestral de la variable y la igualamos a la media 


poblacional: 
a 0-11+1-36+2-38+3-15 =1.57: 
100.: ... 
u=n- n | 


= 376 (6.2) 
=157D7=0.523 | 


El método de máxima verosimilitud 


Lo que caracteriza al método de MV es que provee estimadores consistentes aunque 
no siempre proporciona estimadores insesgados. Lo presentaremos mediante un 
ejemplo. : 
Supóngase gue se obtiene una muestra de 10 plantas de las cualez la 
segunda, la tercera y la octava han florecido mientras gue las 7 restantes no jo han 
hecho. Si designamos a las variables aleatorias gue representan a la presencia de 
flor y a su ausencia como X; siendo su valor igual a 1 si hay flor y 0 si no la hay, 
entonces los valores de las x; observados en la muestra obtenida son: 
0,1,1,0,0,0,0,1,0,0. Por tanto, si la probabilidad de que haya flores es igual a p y la de 


M M 1 


que no haya flores es igual a q = 1 — p, entonces la probabilidad de la muestra 
observada es igual a: qp Pq qq qP qq = pg. k 

La pregunta que nos hacemos al emplear el método de MV es, ¿para que 
valor de 7 sería más probable que hubiera ocurrido la muestra que se observó?, es 
decir, ¿cual es el valor de 7 que hace que la probabilidad de que ocurra lo que se 
observó sea máxima? Entonces tenemos que encontrar el valor de z que haga 
máxima la probabilidad ped. Esto se puede hacer tomando logaritmos y derivando 
con respecto a p: 


L = In(p*g") = 3-In(p) + 7-In(g); (6.3) - 
d 3 7 
dp p |-p 


3 3 
=0>p3>f==>= 
10 10 


Este es el concepto de máxima verosimilitud. Presentaremos directamente 
los estimadores de MV de los parámetros más comunes. 


(a) Estimador de MV de 7. El estimador de MV de m es la proporción muestral 


p: =p con: 


[7 (1-1) o 
Ep) Sayo = a así que p es un estimador insesgado y 


consistente de z. 


(b) Estimador de MV de u. El estimador de MV de „u es la media 


l Nx, T . 
muestral x : 4 = -=x . La media muestral es un estimador insesgado, 


n 
consistente y de mínima variancia de la media poblacional. 
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(c) Estimador de MV de o. El estimador de MV de o“ de una eIsmbución normal es 
la variancia muestral, s i = s . s esun sumados insesgado. de o“. 


Estimación por intervalo 


Los estimadores puntuales, con todo lo buenos que pueden ser, no nos proporcionan 
un valor para el error muestral que se podría estar cometiendo, es decir, sólo 
obtenemos un valor puntual y ninguna medida del error. En cambio, una estimación 
por intervalo de confianza (de allí su nombre), más que proporcionar un valor 
puntual, permite obtener un rango o intervalo de valores de los cuales se espera, con 
un dado margen de confianza, que lleguen a cubrir el verdadero valor del parámetro. 
La estimación por intervalo de confianza consiste en la obtención de dos 
valores extremos, denominados límite superior y límite inferior del intervalo, que 
son variables aleatorias. Para establecer dichos límites, se utilizan los datos de una 
muestra de tamaño n. Luego, se establece la probabilidad deseada de que dicho 
intervalo alcance a cubrir el verdadero valor del parámetro (desconocido), lo que se 
denomina nivel de confianza del intervalo y se simboliza 1 - a. Lo que la muestra 


debe proporcionar es, en primer lugar, la estimación puntual del parámetro (0 ); 
luego, se necesita conocer el tamaño de la muestra (n) y el desvío standard del 
estimador. En símbolos: 


PO-h-olb)<0<B+h-olé)j=1-a o (6.4) 


Como puede verse en la expresión, el intervalo de confianza es simétrico con 


límite inferior igual a ĝ-h- oló) y límite superior igual a Ó+h: o(0). ambos 


variables aleatorias. El factor de confianza h es una cola de la distribución por 
muestreo del estimador: puede ser una distribución normal, una t de Student, etc. 
Como puede deducirse de la expresión general, el ancho del intervalo de 


confianza, o sea el valor de »- oló) depende de h y de oló), el desvío standard del 


estadístico muestral el cual, a su vez, dependerá de manera inversamente 
proporcional del tamaño muestral n. Es decir que cuanto mayor sea el tamaño de 
muestra, menor será el ancho del intervalo de confianza (el intervalo de confianza 
será más preciso) y, a su vez, cuanta mayor sea la confianza que se desea tener (o 
sea, cuanto menor a se emplee) mayor será el ancho del intervalo. 


Intervalo de confianza para la media poblacional 


Caso 1: variancia poblacional conocida y variable aleatoria con 
distribución normal | 


Hemos anticipado ya gue la media muestral, X , es un estimador puntual insesgado, 
consistente y de mínima variancia de la media poblacional, y. También vimos, en una 


o 
clase anterior, gue el desvío standard de este estimador es dl be n si la 
! | j 


distribución de la población es normal, o la muestra es grande, de manera que se 
aplique el Teorema Central del Límite, el intervalo con una confianza 1 - a, será: 


Z r ana F =l=a | (6.5) 
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Ejemplo. : 
Una muestra aleatoria de 50 calificaciones en Matemática mostró una media 
de 75. Se sabe que el desvío estándar poblacional es igual a 10.. 


(a) Construir un intervalo de confianza del 95% (ICes) para la media 


poblacional. 
(b) ¿Con qué grado de confianza se puede decir que la media de las notas es 


751? 


(a) Dado que se conoce el desvío estándar de la población, usamos la 
distribución normal: 


| eS i a ee 
Dado gue el nivel de confianza es del 95% resulta a a 0.975, así 


que z = 1.96 y: 
75-1.96 = < 4 <75+1.96 A o sea que 72.23 < u < 77.77 es el IC 
— 1.960 —== S US .90 — == : H E 
J50 50 95 
buscado. a 


(b) Aquí hay que averiguar el valor de Z tal que se obtenga un valor de 


10 


Zo, 50 


igual a 1. Luego: 


1-9, 
B! 
2 


z, =0.707 
2 > 


= a= 0.48 
=> 1- a= 0.52. 


Caso 2: varianza poblacional desconocida y variable aleatoria con 
distribución normal 


Si el desvío estándar de la población es desconocido se usa al desvío estándar de la 
muestra, S44, como estimador del desvío standard poblacional o. En este caso, si la 
distribución de la variable aleatoria es normal, o la muestra es grande, de manera que 
se aplique el Teorema Central del Límite, en lugar de utilizar z como estadístico en el 
intervalo, utilizamos la distribución t de Student, con n - 1 grados de libertad: 


= E = Saila 
PE gn Ma Ji Sm = l-a. (6.6) 


n 

Esta situación, en la cual la verdadera no se conoce y sólo se cuenta con una 
estimación de ella es la habitual en la mayor parte de las aplicaciones relacionadas 
con ciencias agropecuarias y ambientales. i 

Ejemplo. 

Supongamos que deseamos obtener una estimación por intervalo de la 

longitud promedio de cariopse en una variedad de maíz colorado. Podemos 

extraer primero una muestra aleatoria de, por ejemplo, 17 cariopses para 
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observación. Supongamos, además que encontramos, que x = 10 mm y 
que s, „= 0.3 mm. Con estos datos, puede construirse el siguiente |Cos: 


Sal 


XT 60975" m 
n 


-104212042 


J17 


o sea 9.846 < u < 10.154. 
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Determinación del tamaño de muestra (n) — - 
para un grado de precisión deseado 


La amplitud de un intervalo de confianza para la media se relaciona con el grado de 
precisión de la estimación. Cuando la varianza es conocida, este grado de precisión 
está dado entonces por la expresión: 


ez 
e=z e al 
-Q 
| l A Va 5 
A partir de esta expresión podemos calcular qué tamaño de muestra n es necesario 
para obtener el nivel de precisión deseado e con un nivel de confianza a dado. 


2 2 
Fry "O 
o 


e 


n (6.7) 


Cuando no se conoce la varianza se puede hacer un cálculo aproximado 
reemplazando o por su estimador s y el valor de z percentil correspondiente de la, 
distribución t de Student. NN l Í 


Intervalo de confianza para una diferencia entre dos medias con 
muestras independientes y varianzas poblacionales desconocidas 
pero supuestamente iguales | 


A veces, como se dijo antes, el interés central no está en la estimación de un 
promedio (4) sino en la estimación de una diferencia entre promedios (A). 
Similarmente al caso del IC para una media poblacional con varianza poblacional 
desconocida, la diferencia entre dos medias se distribuye como una f de Student. En 
este caso, el número de grados de libertad es igual an + n2—2. 


l bo | | | kasd 
x—t Ss . [|—+—SAUSAx+!Í 8 AOA 
n +n,-2:1-0% a n n, A n+n=2;1-%/ a n n ( ) 


(n, Sa +(n, sa E 
isl 2 l 


donde 


(6.8) 


es el desvío standard amalgamado-entre los desvíos standard de las dos muestras. 
Ejemplo. 
Nos interesan las diferencias entre los rendimientos promedios de maíz (en 
Kg/Ha) de dos localidades, A y B. A partir de una muestra aleatoria de 12 


establecimientos de la localidad A (m) y 15 establecimientos de la localidad B 
-(n2) obtenemos los siguientes estimadores de la media y de la varianza:: 


z, =6000, s?, ,,, = 565000, Z, = 5400 y sí = 362500, 


así que AX = 6000 — 5400 = 600; y: 
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11-565000+14-362500 
P CY) 


a 


= 672.012 


Luego, el ICs es: 


n +n . 
2 < Aus Ar+t eV 
n s n, m+m—21-% 


AX -t 


. s . 
1 +N) -2:1-9% a 


o sea 


63.86 < Au < 1136.14. 


Ejercicios 


6.1 Decimos que la media muestral es un estadístico porque, es, una función de los 
valores de una variable aleatoria medidos en las “diferentes unidades 
muestrales que integran una muestra aleatoria. Como tal, la media muestral es 
también una variable aleatoria. Para muestras grandes, su distribución de 
probabilidad depende fundamentalmente del tamaño de la muestra y de la 
media y la varianza de la variable aleatoria medida. Las características de la 
distribución de probabilidad de la media muestral hacen que este estadístico 
sea un sea un estimador insesgado y consistente de la media poblacional de la 
variable medida. 


a. ¿Qué distribución de probabilidad aproximada tiene la media muestral 
obtenida a partir de una muestra grande? - 

b. ¿Qué significa estimador insesgado? 

c. ¿Qué significa estimador consistente? 


6.2 En cada uno de los siguientes diagramas, los números I y II representan las 
distribuciones muestrales de dos estadísticos que pueden usarse para estimar 
al parámetro z. En cada caso, identifique el estadístico que considere como el 
mejor estimador y justifique su elección. 


6.3 La producción ganadera es un problema para la conservación de la fauna 
natural de los ojos de agua (pequeñas lagunas) de la región húmeda del oeste 
de Chubut. Las deyecciones de las ovejas enriquecen el agua en nutrientes y 
esto a su vez causa la proliferación de algas y produce serias consecuencias 


para los peces y anfibios de las lagunas. Este proceso es denominado 


"eutroficación" y una medida de su gravedad es la concentración de clorofila 
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en el agua. En un estudio sobre este problema, se midió la concentración de - 
clorofila en el agua de 10 lagunas tomadas al azar en los establecimientos de 
cría ovina del oeste de Chubut. Los datos obtenidos son los siguientes: 


Concentración de Clorofila en el agua (microgramos/litro) 
342 388 348 296 371 304 368 301 392 331 


Identificar a la población, las unidades muestrales, la muestra, y la 
variable aleatoria consideradas en este problema. 

Calcular un estimador puntual insesgado de la concentración de clorofila 
esperada en una laguna tomada al azar en un establecimiento de cría 
ovina del veste de Chubut. | 

¿Se puede decir que el valor calculado corresponde a un estimador 
insesgado de la concentración de clorofila esperada en una laguna tomada 
al azar en el este de Chubut? Explicar. 

Calcular un estimador puntual insesgado de la varianza de concentración. `. 
de clorofila de las lagunas de los establecimientos de cría ovina del oeste 
de Chubut 
Construir un intervalo del 95% de confianza para la concentración de 
clorofila esperada en las lagunas de los establecimientos de cría ovina 
del oeste de Chubut. | 
Explicar en una frase gué significa el intervalo de confianza construido. 
Determinar un tamaño de muestra suficiente como para estimar la 
concentración promedio de clorofila de las lagunas en cuestión con un 
nivel de confianza de 095 y una precisión de al menos 10 
microgramos/litro. | 


6.4 En los cálculos de un intervalo de confianza, la precisión está relacionada con 
el valor absoluto de la diferencia entre la media muestral y el límite superior o 
el límite inferior. Respecto de la situación planteada en este ejercicio indicar 
como se modificaría la precisión en cada uno de los siguientes casos: 


6.5 


Si el intervalo fuese del 99%. 
Si el tamaño de muestra fuera mayor. 


Si el intervalo de confianza se calculara con otra muestra que, por error, 
incluyera algunas lagunas ubicadas en establecimientos sin ovejas. 


Una serie de 10 pruebas de cultivo de un nuevo híbrido de maíz realizadas 
en sitios elegidos al azar en la Pampa Ondulada produce las siguientes 


estadísticas: x =9950 kg / ha, Sn-1 = 920 kg / ha 


a, 


b. 


Construir un intervalo del 95% de confianza para el rendimiento 


esperado. 
Identificar a la población, la muestra, la variable aleatoria consideradas 


en este problema. | 
¿Qué parámetros han sido estimados puntualmente en este caso? => 
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d. Explicar en una frase qué significa el intervalo de confianza construido. 


6.6 Para estimar la cantidad de forraje presente en una pastura de 10 has se 


distribuyeron en ella 25 marcos de 1 m* ubicados al azar. Todo el forraje 
presente dentro de cada uno de los marcos fue cortado, secado y pesado. Con 
los datos obtenidos, se calculó la media aritmética (412 g) y el estimador del 
desvío standard (s= 96 g) de los pesos. 


a. Identificar a la población, las unidades muestrales, la muestra, y la 
variable aleatoria consideradas en este caso 

b. ¿Cómo se interpreta el desvío standard observado? ¿Que causas podría 
tener? 

c. Construir un intervalo del 95% de confianza para el = total de forraje 
(en tn) presente en la pastura. 

d. Explicar en una frase qué significa el intervalo de P construido. 


6.7 La siguiente planilla muestra las alturas (en centímetros) de una población de 
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100 personas. La variable sigue una distribución aproximadamente normal. 


caso ona caso altura| caso altura| caso altura 
41 61 


1 
2 
3 
4 
5 
6 
7 
8 
9 
10 
11 
12 


ha ta ha ba ta ba ha 
NO DM NO sw 


M 
Q 


a. Calcular la altura media de todas las personas de esta población (es 
decir, la altura is de una persona de esta A tomada al 
azar). 

b. Tomar una muestra al azar de tamaño n = 3 y construir un intervalo del 
90% de confianza. cEl intervalo construido incluye a la media 
poblacional? Repetir el proceso 10 veces. 

c. Repetir lo hecho en el punto anterior, con una muestra de tamaño n=6. 
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68 En cada uno de los gráficos que se presentan a continuación, están 
representados 10 intervalos de confianza para el rendimiento esperado del 
cultivo de maíz calculados a partir de muestras de tamaño n = 9 obtenidas de 
una población con media poblacional y = 7,0 tn/ha y un desvío típico poblacional 
o = 10 tn/ha. En uno de los gráficos, los intervalos representados 
corresponden al 90% y en el otro al 99% de confianza. 


Gráfico A Gráfico B 


TA 
5,5 6,0 6,5 7,0 T5 8,0 5,5 6,0 6,5 7,0 7,5 8,0 
(tn/ha) (tn/ha) 


“a ¿Cuál de los gráficos corresponde al 90 y cuál al 99 % de confianza? 


Justificar la respuesta. 
b. Explicar por qué los intervalos contenidos en un mismo gráfico son dife- 


rentes entre si. 


6.9 La propaganda de una marca de cigarrillos sostiene que el contenido promedio 
de nicotina de su producto es menor de 0.7 miligramos por cigarrillo. Para 
determinar el parámetro toman una muestra al azar de 30 cigarrillos y miden 
el contenido de nicotina de cada uno de ellos. Los datos obtenidos son los 


siguientes (en mg/cigarrillo). 


a. Estimar u con un IC (intervalo del 99% de confianza) 
b. Discutir la afirmación que plantea la propaganda sobre la base del 
intervalo calculado. 


6.10 En una región agrícola se siembra predominantemente una variedad de 
trigo que tiene un rendimiento medio de 3.5 toneladas por hectárea. Una 
compañía productora de semillas ha desarrollado una nueva variedad y 
sostiene que el rendimiento promedio es mayor que en la variedad comúnmente 
usada. Para evaluar esta aseveración se seleccionan al azar nueve lotes de 
cultivo dentro de la región y se siembran con la nueva variedad. Los 
rendimientos que se obtienen figuran en la tabla (en Ton/Ha): 
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Identificar las unidades muestrales, la muestra y la población 
involucradas en esta prueba. 

Construir un ICs (intervalo del 95 % de confianza). 

Explicar que significa el intervalo construido, 

¿Qué puede decir acerca de la aseveración de la compañía? 
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En el capítulo anterior hemos presentado una de las técnicas apropiadas 
para hacer conjeturas acerca del valor de un parámetro desconocido, la 
estimación del valor del parámetro. En esta clase, nos referiremos a la segunda 
técnica que se puede aplicar al decidir si el valor del parámetro es igual, mayor o 
menor que una cantidad dada: la prueba de hipótesis. Básicamente diremos que 
la técnica de la prueba de hipótesis permite al ingeniero tomar una decisión 
acerca del valor de un parámetro a partir de la información que puede extraer de 
una muestra. Esa decisión consistirá en elegir entre dos cursos de acción: dado 
un valor del estadístico muestral, un valor de dispersión para dicho estadístico y 
una distribución por muestreo supuesta, se tomará la decisión de rechazar o no 
que el valor del parámetro pertenece a un conjunto de valores posibles. 

Hay dos tipos de hipótesis estadísticas: (i) la hipótesis nula, denotada 
Ho, y, (ii) la hipótesis alternativa, denotada Hı. Frente a una situación de 
incertidumbre acerca del valor de un parámetro (6), se comienza por plantear una 
hipótesis que dice que dicho valor (desconocido) corresponde a un dado valor o 
conjunto de valores (hipótesis nula) y una hipótesis que contempla todos los otros 
valores posibles. Posteriormente, a través de cálculos basados en la distribución. 
por muestreo del estadístico, se toma o no la decisión de rechazar Ho — es decir, 
rechazar que 0 es igual al valor que especifica Ho, o que pertenece al conjunto de 
valores que especifica Ho y aceptar H4. Notar que Ho es rechazada o no es 
rechazada pero nunca es aceptada. 

Usualmente, las hipótesis nula y alternativa se plantean en dos formas, según 
el problema de que se trate: 


(a) hipótesis a dos colas o bilateral. Ho: 9= 4 vs. Ha: 0% ©, donde es un 
valor dado de 0. 


(b) hipótesis a una cola o unilateral. La hipótesis unilateral, a su vez, puede 
ser de dos clases: 


(b,) hipótesis unilateral izquierda o hipótesis de cola izquierda: 
Ho: 02 VS: H4: O < 6. 


(b2) hipótesis unilateral derecha o hipótesis de cola derecha: 
Ho: 0< 0, vs. Hi: 0 > 6. 


Ejemplo. : 
Para lanzar al mercado un nuevo híbrido de maíz, una compaňía de 
semillas debe superar la marca de 11200 Kg/Ha de rendimiento promedio. 
Para decidir si su última creación genética está en condiciones de salir a 
competir al mercado, serían apropiadas las siguientes hipótesis: 


Ho: u < 11200; si Ho es cierta, no sale el híbrido nuevo: 
H4: u> 11200, si H, es cierta, sale el híbrido nuevo. 


Este es un claro ejemplo de hipótesis de cola derecha, donde la 
hipótesis nula se rechaza para valores altos (a la derecha de la 


distribución). 


Tipos de error que se pueden cometer cuando se pone a 
prueba una hipótesis | | 


El hecho de que se tome una decisión acerca del. valor de 6 , no significa 
necesariamente que se ha tomado una decisión correcta. La decisión de no 
rechazar Ho implica dos resultados posibles: si el verdadero valor de 9 pertenece 
al conjunto de valores especificado por Ho, entonces se ha tomado una decisión 
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correcta, pero si el verdadero valor de 9 no pertenece al conjunto de valores 
especificado por Ho sino al especificado por H4, entonces se ha cometido un error. 
Similarmente, la decisión rechazar Ho implica dos resultados posibles: si el 
verdadero valor de 9 pertenece al conjunto de valores especificado por Ho, 
entonces se ha cometido un error, pero si el verdadero valor de 9 no pertenece al 
conjunto de valores especificado por Ho sino al especificado por H4, entonces se 
tomado una decisión correcta. El error de rechazar Ho cuando es cierta se 
denomina error de tipo | (e) y su probabilidad se denota usualmente con la letra 
a y el error de no rechazar Ho cuando es falsa se denomina error de tipo ll (e) y 
su probabilidad se denota usualmente con la letra 8. Podríamos resumir estas 
cuatro situaciones en el siguiente cuadro: 


Cuadro 7.1. 
e Error de tipo II 
Decisión [Se rechazó Ho [Error de tipo I 


La probabilidad de cometer un error de tipo | es denominada usualmente 
como a. Frente a un dado planteo de hipótesis, se especifica un valor de « 
determinado, al que se le denomina nivel de significación de la prueba, y una 
vez calculado el valor de la distribución del estadístico muestral que corresponde 
a dicha probabilidad (a), al que se denomina valor crítico, se toma una decisión. 
Una vez conocido el valor crítico, el conjunto de valores posibles del estadístico 
de prueba queda dividido en dos subconjuntos: el conjunto de valores para los 
cuales no se rechazará Ho (denominado región de aceptación) y el conjunto de 
valores para los cuales se rechazará Ho (denominado región de rechazo). 


Protocolo general de la prueba de hipótesis 


Se puede resumir el procedimiento a seguir en las pruebas de hipótesis en los 
siguientes pasos. 


1.  Planteo de las hipótesis nula y alternativa. 

. Elección de un nivel de significación para la prueba (a). 

3. Elección de un estadístico de prueba. La distribución por muestreo del 
estadístico de prueba se basa en el supuesto de que Ho es cierta. 

4. Determinación del valor crítico de la prueba en base a a, a la distribución 
por muestreo del estadístico de prueba y al tipo de hipótesis que se han 
planteado. p 

5. Cálculo del valor del estadístico de prueba y su error standard para la 
muestra que se utilizó y comparar dicho valor con el valor crítico. 

6. Decisión: se rechaza o no se rechaza Ho. 


Prueba unilateral derecha (Ho: 0< O, vs. H,:0> 09) 


Supongamos que la distribución por muestreo del estadístico de prueba que se ha 
elegido es la distribución normal standard (z). Entonces, dado un valor de a, el 


valor crítico de z correspondiente a dicho nivel de significación (0.) 


será O. = O; je ol), donde 4 es el valor del estadístico muestral, Z1- es 


el valor de z correspondiente a la probabilidad 1 - a volé) es el valor del error 
standard del estadístico muestral. En la Figura 1 de la página siguiente se 
representa el caso de una prueba de cola derecha, con distribución normal 
standard del estadístico muestral y para dos valores de a: 0.05 y 0.01 donde R 
representa la región de rechazo, A, la región de aceptación, 1.65 es el valor de z 
correspondiente a un valor de probabilidad 1 - œ = 0.95 (es decir, a = 0.05), 2.33 
es el valor de z correspondiente a un valor de probabilidad 1 - œ = 0.99, (es decir, 
a = 0.01). Así que, para una prueba unilateral derecha, la decisión será, si 
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usamos a = 0.05 (o 0.01), rechazar Ho si el valor del estadístico muestral (en este 


caso, z) es superior a 1.65 (o a 2.33). Caso contrario, no rechazar Ho. 


Figura 7.1. 
Representación 
esquemática de la región 
crítica o región de 
rechazo (R), de la región 
de aceptación (4) y de 
las áreas 
correspondientes a dos 
niveles de significación, 
0.01 y 0.05, para el caso 
de una prueba unilateral 
derecha. 


į 


Él8)+1.55. alô) 


4 
s 


Figura 7.2. 


Representación 


esquemática de la región 
crítica o región de 
rechazo (R), de la región 
de aceptación (4) y de 
las áreas 
correspondientes a dos 
niveles de significación, 


0.01 y 0.05, para el caso 


de una prueba unilateral 
izquierda. 


g 165 2.33 
A 3 aaa e + a RSORM: a 4.85 
a + A ts Bo tí R q = 191 


Prueba unilateral izquierda (Ho: 92 09 VS. H1:0< 99) 


Otra vez, supongamos que la distribución por muestreo del estadístico de prueba 
que se ha elegido es la distribución normal standard (z). Entonces, dado un valor 


de a, el valor crítico de z correspondiente a dicho nivel de significación (0) será 


ô, =0 +2, -alô (7.1) 


Pa 
EEN 6) 
233 1.65 o 
EA A mk QOS 


RA A z=001 


De manera que, para una prueba unilateral izquierda, la decisión será, si 


usamos a = 0.05 (o 0.01), rechazar Ho si el valor del estadístico muestral (en este 
caso, z) es inferior a -1.65 (o a -2.33). Caso contrario, no rechazar Ho. 
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Prueba bilateral (Ho: Q= 90 vs. HOZ 6) 


En este caso, la región crítica estará dividida en dos segmentos de igual longitud 
situados (simétricamente) a ambos extremos de la distribución del estadístico 
(Figura 7.3). i 


El8)-15 pe 
de 141.96- lë] 
Eló)-2.58 2.58- 08) 
i ' 174 ; : Z 
-2.58 -1.96 D +1.96 +2.58- 
R YAA AAA E O5 


AR AA 1 A ——H— A — se = DD 


De modo que habrá dos valores críticos, uno a la izquierda y el otro a la 
derecha: 


26 +20 6) y (7.2) 
B =0, ME .ol6) (7.3) 


Por ejemplo, siguiendo con el ejemplo de la distribución normal standard, 
si æ = 0.05, entonces, z42 = -1.96 y Z1i-a2 = +1.96; si a = 0.01, Zaz = -2.58 Y Z1-a2 


= +2.58. Por tanto, la decisión en este caso será no rechazar Ho si0, <0<0%4. 
Caso contrario, se rechaza Ho. 


El valor p 


Con el advenimiento del uso de computadoras y de software estadístico, se ha 
generalizado una manera alternativa de tomar decisiones acerca del valor de un 
parámetro. Frente a un dado conjunto de datos de muestra, el software 
estadístico calcula el valor del estadístico de prueba y el valor de probabilidad que 
le corresponde (valor p), según la distribución por muestreo asumida para el 
mismo. Entonces, en lugar de fijar de antemano un nivel de significación y 
observar si el valor del estadístico calculado está por debajo o por encima del 
valor crítico, el ingeniero toma su decisión sobre la base de dicho valor p. En este 
curso, ejemplificaremos el uso de ambas estrategias. 
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Figura 7.3. Representación 
esquemática de las dos 
regiones Críticas o de 
rechazo (R), de la región de 
aceptación” (4) y de las 
áreas correspondientes a 
dos - niveles de 
significación, 0.01 y 0.05, 
para el caso de una prueba 
bilateral. 
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Prueba de hipótesis sobre la media poblacional 
de una variable con distribución normal | 


La media poblacional es una medida cuyo conocimiento o, en su defecto, 
estimación, usualmente, resulta muy necesario. Por ejemplo, un nuevo cultivar de 
trigo, ¿puede elevar el rendimiento promedio de. las cosechas en una determinada 
localidad, si es adoptado? ¿Se ha elevado el ingreso per capita real en la 
Argentina en el último año? ¿Alcanzó el cultivo de maíz de un lote el límite de 
humedad necesario para cosecharlo? 


En todos estos casos con los datos de una muestra necesitamos extraer 
conclusiones acerca de la media de la población. Como hemos visto, el 
estadístico que se emplea para estimar la media poblacional (4) es la media 
muestral (x ). Cuando se trata de una variable con distribución normal o la 
muestra es suficientemente grande para que opere el teorema central del límite, 
entonces el estadístico 


a = (7.4) 


n-1 S A 
VAS 


t de Student con n-1 grados de libertad siempre y cuando la hipótesis nula u = y 
sea cierta. Esto permite poner a prueba la hipótesis nula como en el siguiente 
ejemplo. 


Ejemplo. 

Supongamos que una máquina enfardadora produce fardos con un ancho 
de 80 cm. Para controlar el funcionamiento de la máquina se tomó una 
muestra de 20 fardos en la cual el ancho medio resultó ser de 77 cm con 
un desvío standard de 12 cm. Probar la hipótesis de que la máquina está 


trabajando correctamente con a = 0.10. 


En este caso, se debe considerar que la máquina está trabajando 
correctamente si produce empaques que no sean demasiado grandes ni 
demasiado pequeños así que se trata claramente de una prueba bilateral. 


1] Hipótesis. Ho: u = 80; Hı: u 80. 
2] Nivel de significación. e = 0.10. 
za _¥- Ho EERS 
3] Estadística de prueba. Pia a se distribuye como 
n-l 


n 


una tio. 
4] Región crítica. Puesto que P(t < -1.729 U tig > +1.729) = 0.10, 
se rechazará Ho Si t< -1.729 6 t > +1.729. 


5] Cálculos. n = 20, X = 77,s,, = 12 y 


od Eo 
20 2683 n 


` 6] Decisión. Dado que el valor del estadístico de prueba no cae en 
ninguna de las dos regiones críticas, Ho no es rechazada. 


7] Con el menú Estadísticas — Probabilidades y cuantiles de 
Infostat, podemos calcular el valor p de la prueba. Elegimos v = 19, 
que es el número de grados de libertad. El valor p es, 
aproximadamente, igual a 0.2779 que es muy superior a 0.10. 
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Prueba de hipótesis sobre la diferencia entre las medias 
de dos variables con distribución normal 


Cuando el interés del investigador o del ingeniero no está ya en una media 
poblacional sino en la diferencia entre dos medias poblacionales, el parámetro 


poblacional será el parámetro diferencia (Ay = 11 - 12) y su estimador muestral 
será la diferencia en la muestra (Ax = Xi —x>). Según cómo han sido obtenidos 


los datos, aparecen dos situaciones diferentes para poner a prueba hipótesis 
acerca del valor de Ay, en la primera situación, las unidades muestrales que 
integran las dos muestras están apareadas y en el segundo son independientes. 
Las pruebas de hipótesis apropiadas difieren entre estas dos situaciones. 


Muestras apareadas 


En algunas situaciones conviene comparar las medias de dos poblaciones a partir 
de muestras relacionadas de modo tal que las unidades de muestreo formen 
parejas. Por ejemplo, para comparar el rendimiento medio obtenido con dos 
híbridos de maíz, cada par estaría constituido por dos lotes -de cultivo de una 
misma localidad y cada miembro del par está cultivado con uno de los híbridos. 
De esta manera, cada diferencia entre los rendimientos obtenidos en cada 
localidad constituye un estimador de la diferencia entre los métodos bajo 
condiciones determinadas existentes en la localidad correpondiente. Los datos 
que se van a analizar consisten en una muestra de n diferencias los rendimientos 
en n localidades. El objetivo del muestreo apareado es generar pares que sean lo 
más homogéneos posible en los factores diferentes del que se está analizando 
(p.ej, el híbrido de maíz utilizado), de manera de poder atribuir las diferencias 
encontradas a dicho factor. 

En estos casos, la información está formada por n pares seleccionados 
de manera independiente (X4,1), (X2,Y2), -.., (XmYn), con E(X) = 4 y con Ely) = 14. 
Sea, entonces, la variable d; = x;— y, tal que el valor de d; sea las diferencias entre 
ambas muestras dentro del par i. Se partirá del supuesto que las d; tienen 


distribución normal con variancia Og. 


Estamos interesados en poner a prueba la hipótesis Ho: ¿ig = 4- 42 = ^o, 
donde ^ es una diferencia particular. El estadístico a utilizar en la prueba de 
hipótesis será: 


P. 
n—1 s, / Nn 


que tiene distribución t de Student con n — 1 grados de libertad; 


(7.5) 


s d, 
dy 


es la media aritmética de las diferencias, donde n es el número de parejas. El 
estimador del desvío standard de esta media aritmética de las diferencias es 


Da 
Jn 


con: 
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Ejemplo. 

Supongamos que se desea saber si un nuevo híbrido de maíz (B) es. 
superior a otro híbrido anterior (A) por su rendimiento promedio en 10 
localidades de la región maicera de la provincia de Buenos Aires. Se 
eligieron al azar 10 establecimientos y se obtuvieron los resultados que se 
presentan el cuadro siguiente en el cual ya se han calculado las 
diferencias para cada localidad y sus respectivos cuadrados. 


Cuadro 7.2. 


1] Hipótesis. Ho: 41 2 Hz; Ho: 4 < Ho. 


2] Nivel de significación. æ = 0.01. 


3] Estadística de prueba. tı = 7777 que tiene distribución t de 
s, /Nn 


Student con n — 1 grados de libertad. 


4] Región crítica. Para n = 10, obtenemos que P(t < -2.821) = 0.01 y 
se rechazará Ho si, y solo si, tg < -2.821. 


pe e = 
5] Cálculos. d = y — = — = 30.6; 
“n 


sdy — 
E 10 -192210 - (-306) 142.535: 
10-(10—1) 


= = 
45.074 


6] Decisión. Puesto que -0.679 > -2.281, Ho no es rechazada y 
concluimos en que no hay diferencias entre las medias de 


- rendimiento de los dos híbridos de maíz, en esta región. 


7] Calculamos el valor p de la prueba con Infostat con v = 9 grados 
de libertad. El valor p es, aproximadamente, igual a 0.2571 que es 


muy superior a æ = 0.010. 


También se puede calcular un intervalo de confianza para la media 
de las diferencias, por ejemplo podemos calcular un ICs para A 
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3.250:45.074.0 sea: -177.09 < Au < 


d+ "4 
E As 4 


115.88. 


Este ejercicio puede ser realizado con Infostat. Para ello se deben 
cargar los datos de rendimiento de los dos híbridos en dos columnas 
distintas. Luego se debe recurrir al menú Estadísticas — Inferencia 
basada en dos muestras — Prueba t apareada y, allí, elegir como 
Variables, a la Columna 1 y a la Columna 2. Luego, tildar en la casilla 
Intervalo de Confianza indicando 99 en la casilla para el nivel de 
confianza. : 


Muestras independientes 


En este punto tratamos con muestras tomadas independientemente una de la 
otra. Consideraremos sólo el caso en el cual las poblaciones de las cuales 
provienen las muestras tienen igual variancia. En este caso, nuestro estimador 
insesgado de dicha variancia (que es la misma para ambas poblaciones) es: 


2 (ms + (m Den 
a TT . 


m+m-2 9 


Este estimador, frecuentemente denominado /a variancia amalgamada, es un 
promedio ponderado (amalgamado) de los estimadores de la variancia derivados 
de las dos muestras. Consecuentemente, el estimador del desvío standard (o 
error standard) de la diferencia entre las medias aritméticas muestrales es 


E al 
Ba A (7.7) 
m. Mm 


En este caso, el estadístico 


X — X) -A 
E (X7 X) — Amo (7.8) 


tiene distribución t de Student con n, + m — 2 grados de libertad siempre y cuando 


la hipótesis nula que dice Au = Am sea cierta. Esto permite poner a prueba la | 


hipótesis nula como en el ejemplo que sigue. 


Ejemplo. 

En una estación experimental agropecuaria se desea evaluar el efecto de 
cierto herbicida sobre la producción de cebada. Con ese fin, se 
seleccionan 28 parcelas de tierra, a 14 de ellas se las trata con herbicida 
y a las otras 14 no. La producción promedio de cebada de las parcelas no 
tratadas fue de 5 toneladas con un desvío standard igual a 0.5 toneladas. 
La producción promedio de las parcelas tratadas fue de 5.3 toneladas con 
un desvío standard igual a 0.7 toneladas. Extraer una conclusión con a = 
0.05 y determinar el valor p de la prueba de hipótesis. 
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Cuadro 7.3. 
Con herbicida 


(AU 


Sin herbicida 


Podemos resumir la información muestral así: 


1] Hipótesis. Ho: 141 = u; Hil 44 * 4h; 


2] Nivel de significación. æ = 0.05. 


X7% 


3] Estadística de prueba. t = ——==——— 
Bod 
č | 

n AR, 


donde v= m + n,- 2 = 26. 


que tiene distribución t, 


4] Región crítica. Con a = 0.05 para una prueba bilateral: tbs < - 
2.056 y tg > +2.056. Por tanto, se rechazará Ho Si tg < -2.056 O tag > 
+2.056. l l 


5]Cálculos. 


9 -Je =D) shu + OD saa _ [13-049 + 13-0.25 z 
men 2 14+14-2 
S LR Sre | = 0.230 y 
Mm. A 14 14 


Xx 53-50 
0.230 0.230 


=1.304. 


6] Decisión. El valor de t calculado no es significativo (no cae en la 
región de rechazo de la hipótesis nula). Al 5% de significación se 
decide no rechazar la Ho, es decir que no hay evidencias de un efecto 
del herbicida estadísticamente significativo sobre los rendimientos. 


7] Ahora calculamos el valor p de la prueba con Infostat. Elegimos v 


= 26, que es el número de grados de libertad. El valor p es, 
aproximadamente, igual a 0.2036 que es muy superior a 0.05. 
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7.1 En 1996, un establecimiento ganadero de la provincia de Chubut puso en 
marcha un plan de mejoramiento de la calidad de la lana basado en la - 
incorporación de machos reproductores de: una reconocida cabaña. Un 
censo de todas las ovejas presentes en el establecimiento mostró que, en 
ese momento, la media poblacional de la longitud de la lana del vellón era 
de 79,7 mm. El ingeniero responsable del plan considera que si el plan de 
mejoramiento ha sido efectivo dicha media poblacional debería haber 
aumentado luego de 10 años. En consecuencia, en 2006, este ingeniero 
toma del rodeo10 ovejas al azar y les mide la longitud de la lana del vellón. 
Los datos que obtiene son los siguientes. : 


Oveja 1 2 3 4 5 6 7 8 9 0 


Longitud de 
lana (mm) , 

a. Realizar una prueba de hipótesis para tomar una decisión respecto de la 
siguiente afirmación: " si el plan de mejoramiento no fue efectivo y en 
consecuencia se deberá cambiar de cabaña proveedora de machos 
reproductores”. Presentar el análisis y la conclusión. 


80,9 800 80,7 773 819 78,1 818 811 795 79,0 


b. ¿Cual sería el impacto para la empresa de cometer un error de tipo I 
o un error de tipo II? 


7.2 Una empresa productora de semillas ofrece un nuevo híbrido de maíz que a 
sido puesto a prueba en 12 lotes tomados al azar dentro del partido de 
Pergamino. Los rendimientos obtenidos en cada lote fueron los siquientes: 


Lote alfa. sor se 9fojufa 


Rendimiento 
CO E s RS 60 |75 9090807061 50| 


a. Identificar la poblacion, la muestra y la variable aleatoria © 
consideradas 
b. Constriur un diagrama de caja y bigotes para los datos de 
rendimiento de los lotes. 
En Pergamino el costo de producción del maíz híbrido es de U$S 325/ha y 
el ingreso neto por cada tonelada vendida es U$S 50. 


c. ¿Puede asegurarse con un nivel de confianza de al menos 99% que el 
rendimiento esperado alcanza para cubrir el costo de producción? 
(Mostrar el desarrollo del análisis) 


d: Sobre la base del resultado obtenido, discutir brevemente la 
conveniencia de adoptar este nuevo híbrido en el partido de 
Pergamino. | 


7.3 En un establecimiento lechero se proyecta utilizar el pasto presente en 
una pastura de 20 has para hacer una reserva de fardos de heno con la 
cual alimentar a las vacas lecheras durante el invierno. Por ello es muy 
importante determinar si los fardos a producir alcanzarán para cubrir las 
90 tn de forraje que serán necesarias durante dicho período. Para hacer 
dicha determinación toma una muestra de 25 marcos de 1 m“ elegidos al 
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azar dentro de la pastura. En cada marco, se corta todo el forraje y lo 
pesa luego de dejarlo secar al aire del mismo modo que se hace para 
elaborar los fardos. El promedio de los pesos obtenidos es de 510 
gramos/m? y el estimador del desvío standard es de 100 g/m?. 

a. Identificar las unidades muestrales, la muestra y la población. 

b. Formular hipótesis apropiadas para evaluar si la cantidad de pasto es 
suficiente. 

Calcular el nivel de confianza en la hipótesis nula (valor p). 

Concluir con un nivel de significación a = 0,05. 


Explicar que conclusión debería extraerse. 


wN A 


Explicar el tipo de error gue se puede haber cometido en este análisis y 
cuales serían sus implicancias 


7.4 La propaganda de cierta marca de cigarrillos sostiene que el contenido 


promedio de nicotina de su producto es menor de 0.7 miligramos por 
cigarrillo. Suponiendo que el contenido de nicotina de un cigarrillo tomado © 
al azar es una variable aleatoria con distribución normal, su aseveración es 
que u < 0.7. Entonces, se desea probar: Ho: u > 0.7 en oposición a Hi: u < 
0.7 

La hipótesis se quiere probar con un nivel de significación igual a 0.01, ya 
que si se rechaza Ho se deberá autorizar que en la publicidad aparezca 
esta afirmación, y solo estamos dispuestos a hacerlo si la evidencia en 
contra de Ho es fuerte. Para realizar la prueba determinamos el contenido 
de nicotina en 30 cigarrillos tomados al azar. Los valores encontrados son 


los siguientes (mg/cigarrillo): 


¿Cuál es la conclusión? Compare estos resultados con los obtenidos en el 
ejercicio 6.9 del capítulo anterior. 


7.6 


Para evaluar la exactitud de una nueva técnica para medir el contenido 
de Arsénico en el agua, un químico prepara una solución que contiene 
exactamente 50.10? mg de Arsénico /l. Luego toma 9 alícuotas y en cada 
una mide el contenido de arsénico ¥ con la técnica propuesta y calcula el 


M a a | 
error de medición O =xmg/i-50.10 mg/l Con estos datos calcula 


la media aritmética $ =1,18.10 "mg/l y el estimador del desvío típico 
s=1,5210 ~ mg/l jeô. 
a L dentificar las unidades muestrales, la muestra y la población. 
b. ¿Puede concluirse, con un nivel de significación a = 0,09, que el valor 
esperado de Ô es mayor que cero? | 


c. Explicar qué es el nivel de significación a = 0,05 en términos de este 
problema. E a 


7.7 Un consorcio de productores agrícolas (CREA) lleva adelante un estudio 


para comparar los rendimientos de maíz obtenidos con dos métodos de 
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cultivo diferentes, labranza mecánica y labranza química. Para ello, cada 
socio del CREA toma un lote que ha sido cultivado como una unidad al 
menos en los últimos 5 años, lo divide en dos y cultiva maíz aplicando uno 
de los dos tipos de labranza en cada mitad. Al final de la campaña, los 
productores logran reunir la siguiente información: | 


Rendimiento de maíz [tn/ha] 


a. Estimar el promedio y la varianza de las diferencias de rendimiento 
entre métodos de cultivo 


b. Nombrar posibles causas de la varianza en la diferencia de rendimiento 
entre métodos de cultivo, los voididro San Mas Mad En ta Z 
c. Fromular hipótesis para evaluar si los dos métodos de cultivo producen 


en promedio igual rendimiento. 

d. Calcular el nivel de confianza en la hipótesis nula (valor p). 

e. Concluir con un nivel de significación ú = 0,05. 

f. Explicar la conclusión en términos del objetivo del estudio propuesto 
por el CREA. 


7.8 El contenido de gluten en el trigo puede ser afectado no sólo por su 
tratamiento posterior a la cosecha, sino también por la cantidad de 
nitrógeno que las plantas pueden absorber en diferentes etapas de su 
desarrollo. Para evaluar la importancia relativa de la disponibilidad de 
nitrógeno temprano y tarde en el ciclo del cultivo, se tomaron 10 parcelas 
sembradas con trigo y cada una fue dividida en dos. Una mitad de cada 
parcela fue fertilizada en el momento de la siembra y la otra mitad fue 
fertilizada recién cuando las plantas florecieron. Al final del cultivo se 
determinó el contenido de gluten del trigo cosechado en cada media 
parcela mediante la medición la elasticidad de la masa producida con la 
harina correspondiente. Los datos obtenidos figuran en la tabla: 


Elasticidad de la masa (Valor W) 


Ao 


m O 


ziS 
Parcela ->7. 


Momento d, AL S 3 E OS 
EA EN 
188 177| 185 


a. Formular las hipótesis necesarias para evaluar, a partir de estos datos, 
si el contenido esperado de gluten difiere entre trigo fertilizado a la 
siembra o a la floración. 

¿ Calcular el nivel de confianza en la hipótesis nula (valor p). 


Concluir con un nivel de significación a = 0,05. 


Explicar la conclusión en términos del problema. 
Explicar el tipo de error que se puede haber cometido en esta prueba. d, 


SETS 


ší 
k 
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d. Construir un intervalo del 95% de confianza para la diferencia entre los 
contenidos de gluten de trigo producido con fertilización a la siembra y 
a la floración 


7.9 Durante la última década, una importante superficie de los pastizales de la 
Región Pampeana ha sido reemplazada por forestaciones. Este cambio en 
el uso de la tierra puede producir consecuencias ambientales debidas a 
modificaciones de la hidrología local, como cambios en el caudal de los 
arroyos, en el contenido de sales del suelo o en la profundidad de la napa 
freática (agua subterránea). En un estudio orientado a evaluar el impacto 
de las forestaciones sobre el ciclo hidrológico, se seleccionaron al azar 10 
forestaciones en el partido de Zárate y, en cada una ellas, se midió la 
profundidad de la napa freática (en metros) en el centro de una 
forestación y en un pastizal vecino. Los datos obtenidos figuran en la 


De 


tabla: mí o, O, Iz 6, O DÁ o, aa. 06 


DES E 
20 | 23|22|20 
16 | 15 


a. Identificar la población, la muestra y las unidades de observación y las l 
variables aleatorias involucradas en este estudio. 


b. Estimar la esperanza y la varianza de las diferencias en la profundidad 
de napa entre pastizales y forestaciones. 

c. Construir un intervalo del 95% confianza para la esperanza de dichas 
diferencias | 

d. ¿Se puede concluir con un nivel de significación a=0, 05 que, en Zárate, 
las forestaciones han determinado un aumento en la profundidad 
promedio de la napa freática? | 

e. ¿Qué tipo de error se puede haber cometido en la prueba de hipótesis 
anterior? Explicar su significado en términos del problema. 


7:10 En un estudio sobre la susceptibilidad de plántulas de duraznero a dos 
cepas diferentes de un virus, se tomaron de un vivero 8 plántulas al azar; 
en cada plántula se seleccionaron 2 hojas y cada una fue inoculada con una 
de las dos cepas virales. Al cabo de una semana, se midió en cada hoja el 
tamaño de la lesión producida por el virus (en mm?): Los datos obtenidos 
figuran en la tabla: | | 


Lesión cepa viral A 
[mm] 


Lesión cepa viral B 


promedio de tamaño. 


c. Explicar qué es el nivel de significación a. 
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7 liPara estudiar el efecto del cobre sobre la ganancia diaria de peso de 
terneros, se tomó una muestra aleatoria de 12 terneros de un 
establecimiento ganadero donde los suelos son deficientes en cobre. A 5 
terneros seleccionados al azar se les aplicó a un tratamiento de inyección 
de cobre y a los restantes 7 no recibieron el tratamiento. Luego de un 
tiempo se midió el aumento de peso diario de los terneros. Los datos 
obtenidos son los siguientes: | | | 

Aumento de peso [kg/día] 

0,7- 0,7- 06- 0,7- 06 

06- 06- 04-05-04-05-05 


a. Identificar las unidades muestrales, las muestras y las poblaciones.. 


Terneros tratados 


Terneros no tratados 


b. Formular y poner a prueba hipótesis para evaluar sí la aplicación de 
cobre resulta en un aumento de la ganancia de peso de los terneros. 

c. ¿Qué tipo de error podría haber cometido? Descríbalo en términos de 
“este problema. 

d. Construir el intervalo de confianza correspondiente. 


e. ¿Bajo qué supuestos el válida la inferencia realizada en a. y c.? 


7.12 La aptitud de la harina de trigo para panificación depende 
principalmente de su contenido de un complejo proteico denominado 
gluten. Para evaluar la posible influencia del sistema de secado del grano 
sobre su contenido gluten, se seleccionaron al azar en la provincia. de 
Buenos Aires 7 plantas de acopio que utilizan un sistema de secado 
prolongado a baja temperatura y 9 plantas de acopio que utilizan un 
sistema de secado rápido con alta temperatura y se determinó el 
contenido de gluten del trigo (g gluten/ 100 g harina) procesado en cada 
una. Los datos obtenidos son los siguientes: 


Po + [mA x [g/100g] | s*[g/1009]* 
25,753 1,754 
Alta Temp “| 23.923 1597 


a. Identificar las unidades muestrales, las muestras y las poblaciones 


b. Formular hipótesis apropiadas para evaluar si el contenido esperado de 
gluten es afectado por el sistema de secado. 


c. Poner a prueba la hipótesis nula con un nivel de significación a = 0,05. 


d. Explicar que conclusión debería extraerse. 
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Figura 8.1. Diagrama de 
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ANÁLISIS DE LA ASOCIACIÓN ENTRE © 
DOS VARIABLES | | 


y 


Hasta ahora, hemos estado tratando con muestras en las cuales se registraban O 
medían los valores de una variable aleatoria. Sin embargo, la mayor parte de los 
problemas en la ciencia y la técnica involucran más de una variable y en las 
muestras que se toman con el fin de analizar estadísticamente un problema o 
para tratar de contestar una pregunta en términos probabilísticos, se registran O 
miden varias variables. En esta clase sólo veremos el caso en que se registran 


dos variables. 
Hay dos tipos básicos de problemas: 


4. ambas variables son aleatorias, es decir, que en las unidades que 
“componen las muestras que se toman aleatoriamente se miden dos 
variables que denotaremos X e Y - este tipo de muestras se llaman 
muestras bivariadas — y no existe ninguna relación de dependencia 
clara entre ambas variables aleatorias, y, 


2 una de las variables (Y), llamada variable respuesta o variable 
dependiente, es una variable aleatoria claramente dependiente de la otra 
(X) a la que se llama variable predictora O independiente, que asume 
valores fijos dictados por el ingeniero o el experimentador. 


Para analizar el primer tipo de problema, utilizaremos dos técnicas 
estadísticas denominadas análisis de correlación y análisis de regresión; para el 
segundo utilizaremos el análisis de regresión. En un caso como éste en el que 
sólo tratamos con dos variables, la regresión se dice que es simple y dado que 
sólo utilizaremos funciones lineales elementales para describir el tipo de relación 
entre X e Y, la técnica que utilizaremos será la del análisis de regresión lineal 


simple. 
El concepto de covariancia 


Consideremos el siguiente ejemplo de una muestra bivariada, donde X es el 
contenido de un micronutriente en el suelo (en ppm) e Y es contenido de un 
macronutriente (en ppm), para un grupo de muestras de suelo: 


Los datos de una muestra bivariada pueden ser gráficamente representados en 
un representados en un diagrama de dispersión como el que se muestra en la 
Figura 8.1. En este caso, el diagrama de dispersión mostrado permite observar 
que existe una asociación positiva entre las dos variables (cuando aumenta X 


también aumenta Y). 
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Así como existen medidas de tendencia central (medias, medianas, etc.) y de 
dispersión (variancia, desvío standard, coeficientes de variación, etc.) para 
describir la distribución de una variable aleatoria, también existen medidas que 
sirven para describir la asociación entre dos variables o, más especificamente, la 
manera en que dos variables aleatorias varían en forma conjunta. La medida 
principal del tipo de asociación entre dos variables aleatorias se denomina 
covariancia entre las variables X e Y, y se denota Cov(X, Y). La Cov(X, Y) se 
calcula de la siguiente manera: 


Cov(X, F) = E(X = 1) (F = 4 ) (8.1) 


donde xx es la media de X, u es la media de Y, y E(X-Y) es la esperanza de los 
productos XY. 

Para el caso de una muestra aleatoria bivariada de tamaño n, la covariancia se 
estima como: 


(8.2) 
n-1 

Y así'cotno existe el coeficiente de variación como o medida de dispersión 
relativa independiente de las unidades de medición, también existe una medida 
relativa de la' asociación estadística entre dos variables que es, también, 
independiente de las unidades de medición, que se denomina coeficiente de 
correlación. Para el caso de una población, el coeficiente de correlación 
poblacional entre dos variables es un parámetro que se denota con la letra py 
gue se define de la siguiente manera: 


Cov(X, Y 
pl) T (8.3) 


Para el caso de una muestra bivariada de tamaño n, estimamos el 
coeficiente de correlación mediante el coeficiente de correlación muestral que 
se denota mediante la letra r y se calcula de la siguiente manera: 


Z - X) (Y, -Y) 


La covariancia puede tomar cualquier valor en la escala de los números 
reales, y tanto valores positivos como negativos mientras que el coeficiente de 
correlación, por su naturaleza relativa, sólo puede tomar valores en el intervalo [- 
1,+1]. Ambas medidas, cuando son positivas, describen una asociación de tipo 
directo entre las variables (es decir, cuando aumenta una de ellas, la otra también 
tiende a aumentar) mientras que cuando son negativas, describen una asociación 
de tipo inverso entre las variables (es decir, cuando aumenta una de ellas, la otra 
tiende a disminuir). 


Ejemplos 

1. Los coeficientes descriptos permiten describir la asociación positiva 
entre los contenidos del micro y del macronutriente del suelo que se 
visualiza en la Figura 8.1. 


Entonces: 
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"` 135.30 
7 141.479 
= 0.9563 
En la Tabla 8.1 se presentan los cálculos. 


Tabla 8.1 


P 


2. Sea la siguiente muestra bivariada donde X es el número de horas de 
frío recibidas por un grupo de semillas e Y es el número de días 
transcurridos desde siembra a germinación: 

(x 18123129 131142 T 47 [59 | 66 [88 | 116 | 


El gráfico de dispersión correspondiente se presenta en la Figura 8.2. 


En este caso, puede visualizarse que la asociación entre las dos variables es 
negativa. Esto concuerda con los valores negativos de la covarianza y del 
coeficiente de correlación estimados: 
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A a 6 2227 S P M y 
mel B 9 
_ (EJ AF) _ 22575 _ 9373 


MEAN A! 2408.39 


Regresión lineal simple 


Podemos distinguir dos tipos principales de relación entre variables: 


1) relación funcional y, 
2) relación estadística. 


La primera puede ser expresada por una fórmula o modelo matemático. Es el 
caso de la relación entre el costo de un traslado de mercadería (Y) y la distancia a 
recorrer (X), cuando el costo fijo por el traslado es de $30 y se suman $5 por cada 
km de recorrido, En este caso el costo total del traslado se puede calcular 
exactamente mediante la siguiente función: 


Y = 30 + 5:X 


Se trata de una función que representa a una línea recta, donde la 
ordenada al origen es 30 (precio que nos cobra el flete sólo por haber sido 
contratado y llegar al lugar de partida, aunque luego decidamos no realizar el 
transporte) y la pendiente es 5 (incremento del costo por cada km de aumento del 
recorrido). Si se desea calcular el costo de un traslado a 6 km, basta con 
reemplazar en la función, la variable X por el valor 6 y realizar la cuenta, para 
enterarnos que deberemos pagar $60. En la figura 8.3 se observa que todos los 
puntos que satisfacen la relación se encuentran sobre la misma línea recta y que 
a cada valor de X le corresponde un único valor de Y. | 

A diferencia de la relación funcional, la relación estadística no es una 
relación perfecta. En general, las observaciones no caen directamente sobre una 
línea recta. Por ejemplo, si se estudia el tiempo hasta floración de una especie, en 
función de la temperatura, se puede obtener una muestra de datos como la 
siguiente, que representa la suma de temperaturas (X) por encima de un umbral y 
los días hasta floración (Y) para la especie en cuestión 


E KOEI EO 
20125122] 20] 12120) els 121 281 10] e] > 


. Y: Costo ]5] 
> MO BO q Y © © 
oo o © © © © © © 


0... 200 A4 6 32. 10... 12 
X: Distancia [Km] 


El diagrama de dispersión correspondiente a esta muestra, que se 
presenta en la Figura 8.4, sugiere que hay claramente una relación lineal entre la 
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Figura 8.4. Diagrama de 
dispersión. 


Figura 8.5. Diagrama de 
dispersión con recta de 
dispersión. 
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suma de temperaturas y el tiempo hasta floración, en el sentido de que a mayor 
temperatura, la floración ocurre más temprano. ga 


0 20 40 60 30 100 
E x À 


Sin embargo, puede verse que la relación no es perfecta: para cada valor 
de suma de temperaturas no existe un único tiempo hasta floración, sino que hay 
una dispersión de puntos sugiriendo que parte de la variación en el tiempo hasta 
floración no se explica por la suma de temperaturas. En este caso el tiempo hasta 
floración es la variable dependiente o variable respuesta (Y) y la suma de . 
temperaturas, la variable independiente o variable predictora (X). 

La Figura 8.5 muestra la recta que describe la relación estadística entre 
las variables estudiadas (luego explicaremos como obtenerla). La dispersión de 
puntos alrededor de la línea representa la variación en tiempo a floración que no 
está asociada linealmente a la suma de temperaturas. 


40 
30 
> 20 


10 


La técnica de análisis de regresión lineal simple se utiliza para analizar la 
relación estadística entre dos variables. Debe quedar claro desde ahora que la 
relación entre las dos variables que se pretende determinar es de naturaliza 
estadística y no solamente matemática, siempre habrá un grado de incertidumbre 
en cuanto a las relaciones que se establezcan y en cuanto a las estimaciones y 
pruebas de hipótesis que se hagan. 

Emplearemos la relación funcional más simple: la línea recta que queda 
completamente definida una vez conocidos su ordenada al origen y su pendiente. 
El objetivo de la técnica consiste en encontrar la línea recta que mejor describa la 
relación entre las variables predictora (X) y respuesta (Y). 


Ejemplo: ; l 
El ejemplo consiste en 10 lotes de Picea en un gran vivero de Bariloche. 
En dicha muestra se midieron dos variables: el tamaño del lote de 
producción y el número de Horas-Hombre insumidas para producir 
arbolitos en dicho lote. i 
El número de Horas-Hombre es la variable dependiente o 
variable respuesta (Y) y el tamaňo del lote, la variable independiente o 
variable predictora (X). En la Tabla 8.2 se muestran los datos. La Figura 
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8.6 muestra la dispersión de los datos. Se nota claramente en el gráfico 
que la relación entre las dos variables es directa: a mayor tamaño de lote, 
mayor cantidad de Horas-hombre necesarias para producirlo. 

De conocer todos los valores posibles de ambas variables 
(estaríamos tratando con una población), entonces se podría buscar una 
recta que describa ajustadamente la relación entre las dos variables, es 
decir que, si se hallara dicha recta, se conocerían sus parámetros: la 
ordenada al origen (£) y la pendiente (8). Pero si eso no es posible, solo 
se podrá disponer de los datos de una muestra. La cuestión ahora es 
encontrar la recta que mejor “ajuste” los puntos del diagrama de 
dispersión, es decir que, a partir de los datos de la muestra se deberán 
encontrar estimadores de los parámetros o y $, de la recta verdadera (en 
la población) a los que denotaremos como bo y b4. 


Tabla 8.2. 


Salida de Tamaño © [Horas 
producción - | -Hombre 


180 


150 


-à 
m © Mo 
© © © 


Horas-Hombre de trabajo 
© 
© 


0 20 40 60 80 
Tamaňo de lote 


No esperaremos que todos los puntos muestrales caigan exactamente 


sobre ella sino que habrá una diferencia debida al error de la muestra. Para 
expresar la relación estadística entre las dos variables tendremos que escribir el 
modelo de regresión: 


Modelos de regresión 


Un modelo de regresión es una manera formal de expresar los dos ingredientes 
esenciales de una relación estadística: 
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e una tendencia de la variable dependiente Y a variar conjuntamente 
con la variación de la (o las) variable(s) independiente(s) de una 
manera sistemática y, 


* una dispersión de las observaciones alrededor de la curva de la 
relación estadística. 


Figura 8.6. 


ESET ( 


Figura 8.7. 
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Estas dos características están implícitas en un modelo de regresión 
postulando que: | o 


e enla población de observaciones asociadas con el proceso que fue 
muestreado, hay una distribución de probabilidades de Y para cada 
nivel de X. 


ə las medias de estas distribuciones de probabilidades varían de una 
manera sistemática al variar X. l 


Siguiendo con el ejemplo, para cada tamaño de lote, se asume que hay 
una distribución de probabilidades de Y. La Figura 7 muestra esa distribución para 
X = 30 que es el tamaño de lote para la primera salida de producción. Entonces, 
la cantidad real de Hóras-Hombre (73) es vista como una selección aleatoria a 
partir de esta distribución de probabilidades. 


Distribución de probabilidad de Y 


Línea de Regresión 


4 


La Figura 8.7 también muestra las distribuciones de probabilidades de Y 
para los tamaños de lote 50 y 70 (X= 50 y X= 70). Nótese que las medias de las 
distribuciones de probabilidades guardan una relación exacta con el nivel de X. 
Esta relación exacta se denomina función de regresión de Y sobre X. El gráfico 
de la función de regresión se denomina curva de regresión. En la figura la 
función de regresión es lineal. Para nuestro ejemplo, esto implicaría que el 
número esperado (es decir, la media) de Horas-Hombre varía de. manera lineal 
con la variación en el tamaño del lote. El número de Horas-Hombre podría estar 
relacionado de otra manera con el tamaño del lote - no necesariamente deberá 
ser una línea recta — pero en este curso sólo estudiaremos relaciones lineales. 


Objetivos del análisis de regresión 


El análisis de regresión persigue tres grandes objetivos: (1) descripción, (2) 
control y, (3) predicción. : 

En los estudios observacionales, es decir, cuando se observa un proceso sin 
incidir sobre el mismo (o tratando de no hacerlo) el propósito es claramente 
descriptivo. Por ejemplo, en el estudio de la influencia de la cantidad de dióxido 
de azufre en el aire (X) sobre el porcentaje de plantas atacadas por un insecto en 
un bosque (Y), se tomarán muestras bivariadas y se registrarán los valores de 
ambas variables con el fin de describir ese proceso de contaminación-infestación. 
En los estudios técnicos donde el ingeniero manipula una variable (X) y observa 
cómo cambia otra (Y), el propósito es controlar el procesó con fines técnicos o 
económicos. Por ejemplo, la manipulación de dosis de fertilizantes 'sobre el 
rendimiento de un cultivo: un ensayo permitiría hallar una relación estadística 
entre rendimientos y dosis de fertilizante en el cultivo para fijar los gastos en ese 
rubro. Finalmente, conocer la relación estadística funcional entre dos variables 
permite predecir el comportamiento futuro de una de ellas dado que se conoce el 
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valor de la otra. Por ejemplo, si se conoce la relación funcional que liga el 
porcentaje de humedad en el ambiente con el porcentaje de plantas infectadas 
por un hongo patógeno en un cultivo, se puede lanzar una alarma cuando el nivel 
de humedad llegue a un nivel crítico. Pero los distintos objetivos suelen 
superponerse. El ejemplo de los tamaños de lotes y las Horas-Hombre permite la 
predicción del requerimiento en Horas-Hombre. para la próxima salida de 
producción dado un tamaño de lote, a los fines de la estimación de los costos y la 
programación de la producción. Después que la producción se completó, los 
ingenieros pueden comparar las Horas-Hombre reales con las horas predichas 
por el modelo a los fines del control administrativo. 


Modelo de regresión lineal 


El modelo básico del que hemos venido hablando puede formalizarse de la 
siguiente manera: © 


Y= Po + PBrX+ 8 , (8.5) 
e, ~ Normal (0, o) © 
Cov(ej e) = 0 cuando ¡+ j 


donde Y; es el valor de la variable respuesta en el ¡-ésimo ensayo, o y 84 son 
parámetros, X; es el valor de la variable independiente en el j-ésimo ensayo y «;es 
un término de error aleatorio con distribución normal, media E(«) = 0 y variancia 
T G yg no están correlacionados de manera que Cov(e; ej) = 0 para todas las iy j, 
conizjeli=1,2,...,N.. : 

Como puede verse el valor de Y; resulta de sumar un componente exacto 
determinado por los coeficientes £o y 8 y por el valor de X; y un componente no 
exacto o aleatorio determinado por el valor de s. Por este motivo, el valor de Y; 
también será aleatorio y, como tal: 


1. tendrá una distribución de probabilidades y, puesto que hemos asumido 
que los errores aleatorios pueden tener valores tanto positivos como 
negativos con media total igual a 0, dicha distribución de probabilidades 
tendrá media igual a: E(Y) = E(Bo + BrX¡+ €) = Po + ByXi + Ele) = Bo + 
B+ Xi, es decir, el valor de la función de regresión lineal y la diferencia 
entre esa media y el valor observado (Y) y Bo + B+ X; es, justamente, el 
valor del error correspondiente a esa unidad (e); 


2. puesto que la variancia de los ges igual a o, VY) = V(Bo + BrX + s) = 
0+ V(s) = o“ para cualquier nivel de X, y 


3. puesto se supone que los « son independientes, también se supone 
que los diferentes resultados obtenidos, Y, son completamente 
independientes (es decir que el valor de uno de ellos no tiene ninguna 
influencia sobre el valor de otro de ellos). 


Siguiendo con el ejemplo, supongamos que un modelo de regresión lineal © 


se puede aplicar al ejemplo de los tamaños de lote y que dicho modelo es: Y; = 
9.5 + 2.1:X, + e La siguiente figura contiene una representación de la función de 
regresión E(Y) = 9.5 + 2.1-X. Supongamos que en la ésima unidad se produce 
un lote de X; = 45 unidades y que el número observado de Horas-Hombre es Y; = 
108. En este caso, el término del error es e; = +4 porque E(Y) = 9.5 + 2.1-(45) = 
104 e Y;= 108 = 104 + 4. 

La Figura 8.8 muestra la distribución de probabilidad de Y cuando X = 45 e 
indica dónde está la observación Y; = 108 en esta distribución. Nótese otra vez 
que el término del error « es, simplemente, la desviación de la observación con 
respecto a su valor promedio E(Y;). La figura también muestra la distribución de 
probabilidad de Y cuando X = 25. Nótese que esta distribución muestra la misma 
variabilidad que la distribución de probabilidad correspondiente a X = 45, de 
conformidad con los requerimientos del modelo lineal simple. 
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„E(Y)=95+21X 


Parámetros de la regresión 
Los parámetros Bo y ff se denominan coeficientes de regresión. f, es la. 
pendiente de la línea de regresión e indica el cambio en la media de la 
distribución de probabilidad de Y por cada unidad de incremento en X. El 
parámetro o es la ordenada al origen (intercepción) de la línea de regresión. Si el 
rango de valores del modelo llega hasta X = 0, Bo da la media de la distribución de 
probabilidad de Y en X = 0. Cuando el rango del modelo no llega hasta X = 0, fo 
no tiene ningún significado particular como término en el modelo de regresión. © 


Ejemplo. 

La Figura 8.9 muestra la función de regresión E(Y) = 10 + 2-X para el 
ejemplo anterior de los tamaños de lotes. La pendiente 8; = 2 indica que 
un incremento de una unidad en el tamaño del lote lleva a un incremento 
en la media de la distribución de probabilidad de Y de 2 Horas-Hombre. 
La ordenada al origen £ = 10 indica el valor de la función de regresión en 
X = 0, pero como el modelo de regresión lineal fue formulado para que se 
aplique a tamaños de lote que iban desde 20 hasta 80 unidades, £o no 
tiene ningún significado por sí mismo y, en particular, no indica 
necesariamente el tiempo promedio al comienzo del proceso, es decir el 
número promedio de Horas-Hombre antes de que comience la 


producción. 


pao 


Incremento 
unitario en X 


Horas-Hombre 


0 10 20: 30 40 50 
Tamaño de lote 
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Estimación del Modelo de regresión 


Como hemos dicho antes, se puede realizar un experimento controlando los 
valores de la variable independiente (X) y obteniendo, así, datos experimentales, 
o un 


estudio observacional donde, simplemente, se registran los valores de ambas 
variables en una muestra bivariada. Sea como sea, los valores de los parámetros 
Bo y B serán, en general, desconocidos y deberán, por ello, ser estimados. En la 
clase correspondiente a Estimación de Parámetros, se explicó un método de 
estimación (el método de máxima verosimilitud) y se anunció que en esta clase de 
Regresión Lineal se explicaría el otro (el método de cuadrados mínimos). Aquí lo 
haremos. 


Método de estimación por mínimos cuadrados 


Tal como se indicara en la clase sobre Estimación de Parámetros, otro de los 
métodos de estimación que vemos en este curso es el método de mínimos 
cuadrados. Se supone que las observaciones de la muestra tienen la forma (para 


el caso de un parámetro único, 6): 
Y= HO +6, i=1.2,0 (8.6) 


donde f(6) es una función conocida del parámetro 9 y las « son variables 
aleatorias de las cuales se asume, comúnmente, que tiene esperanza igual a 0, 
es decir, E(e) = 0. Con el método de mínimos cuadrados, para un conjunto de 
observaciones mueestrales dado, la suma de cuadrados: l 


g= $ - 1.0) (8.7) 


es considerada como una función de 0. El estimador de mínimos cuadrados de © 
se obtiene minimizando Q con respecto a 8, es decir, derivando © con respecto a 
9 e igualando a 0. En muchas instancias, los estimadores de mínimos cuadrados 
son insesgados y consistentes.Este método utiliza los cuadrados de las 
diferencias entre las observaciones Y; y sus valores esperados: 


O=, -b-b X (8.8) 


Y buscará los valores bo y b, que hagan que Q tenga su valor mínimo: 
ésos serán los estimadores de los parámetros o y 84. Como es sabido, para 
hallar mínimos se debe recurrir al cálculo de derivadas. En este caso que nos 
ocupa, tendremos un sistema de ecuaciones en derivadas parciales 
(denominadas ecuaciones normales) del cual se pueden despejar los valores de 
bo y by: (VER ANEXO |) 

Como dijimos, el objetivo del método de mínimos cuadrados es hallar 
estimaciones bo y b, para Bo y f1, respectivamente, para las cuales © sea 
mínima. Después de las correspondientes manipulaciones algebraicas (que aquí 
no detallaremos), se llega a las siguientes dos expresiones para bo y by: 


Y (Xx, -X) (Y, -Y) = = 


b = E b=Y-b, -X 

l | PY Y 29 A (8.9) 
DA = X) 

donde X e Y son las medias de X e Y, respectivamente. 


Ejemplo. 
Para ilustrar el cálculo de los estimadores de mínimos cuadrados bo y b4, 
utilizaremos, nuevamente, el ejemplo de los tamaños de lotes en el vivero 
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de Picea en Bariloche, cuyos datos muestrales se presentaron y se 
graficaron en la página 89. Los cálculos se presentan en la Tabla 8.3. 


6800 


SC, = 3400, SCy= 13660 y SPxy= 6800. ` 


b, =F -b -X = 110 - 2(50) = 10, 


donde X = 50 e Y = 110 son las medias de X e Y, respectivamente. 


SCy es una medida de la variación total de la respuesta y su utilidad se verá 


más adelante. 
Obtenemos, bo = 10 y b, = 2. Así, estimamos que el número medio de 


Horas-Hombre aumenta en 2.0 horas por cada unidad de incremento en el 
tamaño del lote, como indica la pendiente by = 2 0. La ordenada al origen bo = 10 
indica el valor de la función de regresión en X = 0, pero como el modelo de 
regresión lineal fue formulado para gue se apligue a tamaňos de lote gue iban 
desde 20 hasta 80 unidades, Lo (y, por lo tanto bo) no tiene ningún significado por 
sí mismo y, en particular en este ejemplo, no indica el tiempo promedio para lotes 
de dimensión igual a cero. | 


Estimación de la media de Y dado X 


Los estimadores defo y Bs, respectivamente bo y b4, pueden ser usados para 
estimar los valores de la media de Y correspondientes a valores dados de la 
variable independiente X usando la fórmula Y = b, + b, - X, donde el signo sobre 


la Y se lee “estimado” o “ajustado” y es el valor de la función de regresión 
correspondiente a un valor de X. La diferencia entre un valor observado y el 
correspondiente valor ajustado por la recta de regresión se denomina residual de 


dicha observación: e, = Y, — Y,. En el cuadro de la izquierda presentamos los 


cálculos correspondientes al ejemplo que venimos utilizando. 
En este caso de los tamaños de lotes, hallamos que las estimaciones de 


mínimos cuadrados de los coeficientes de regresión eran bo = 10.0 y b4 = 2.0; por 


tanto, la función de regresión estimada es Y =10.0+2.0. X. Si estamos 
interesados en el número medio de Horas-Hombre cuando el tamaño de lote es, 
por ejemplo, X = 55, nuestra estimación puntual sería Y = 10.0+2.0-55=120. 
Así, estimaríamos que el número medio de Horas-Hombre para los lotes de 
tamaño X = 55 es igual a 120. Esto significa que si se producen muchas tandas 
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con lotes de tamaño 55 bajo las condiciones de las 10 tandas de la muestra, el 
tiempo de trabajo promedio para cada tanda será de alrededor de 120 horas. 
Desde ya que el tiempo de trabajo para un lotea de tamaño 55 cualquiera es 
probable que sea más alto o más bajo que la respuesta media debido a la 
variabilidad inherente en el sistema, tal como se representa mediante el término 
del error en el modelo. La Figura 8.10 contiene. un gráfico de la función de 


regresión estimada Y =10.0+2.0- X, así como los datos originales. 


X 


Horas-Hombre (Y) 
3 
© 


Y =10.04+2.0-X 
Q= 60.0 
10 20 30 40 50 60 70 g0 90 


A Tamaño de lotes (X) 


Los valores ajustados para los datos muestrales son obtenidos 
sustituyendo los valores de X de la muestra en la ecuación de regresión estimada. 
Por ejemplo, para los datos de la muestra del ejemplo, X, = 30. Por tanto, el valor 


ajustado es: Y =10.0+2.0-30= 70. Esto se compara con el valor observado de 
Horas-Hombre, Y = 73. La Tabla 4 contiene los valores de: la variable 
independiente (X), las respuestas (Yi), los valores ajustados por el: modelo de 


A 


regresión lineal ( Y, ), los residuales y sus cuadrados. 
Residuales 


El jésimo residual es la diferencia entre el valor observado Y; y el 


correspondiente valor ajustado 4 l 
e, =Y, -F =Y, -b, —b, suba 


La Figura 8.11 muestra los 10 residuales del ejemplo. Las magnitudes de 
los residuales se muestran mediante líneas verticales entre cada observación y el 
valor ajustado sobre la línea de regresión estimada. Debemos distinguir entre el 


valor del término del error del modelo, e, = Y, - E(Y), y el residual, e, = Y, — Y. 


El primero se refiere a la desviación vertical de Y, con respecto a la línea de 
regresión poblacional desconocida y, por tanto, es desconocido. Por otra parte, el 
residual es la desviación vertical observada de Y; con respecto a la línea de 
regresión ajustada. l 

Los residuales son muy útiles para estudiar si un modelo de regresión es 
apropiado para los datos con los cuales se está trabajando. ; 


200 y y 


450 |. 


Wg | “Valor observado * 


Í Residual 


Horas-Hombre > `- 


Valor ajustado] 
50: 


0 
10 20 30 40 50- so 70 -807 90 


Tamaño de lote 


100 


Figura 8.10 
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Residual al 
cuadrado 


e (1-2) 


Respuesta 
media 
estimada (£) 


I 


Residual 


Propiedades de la línea de regresión ajustada 


La línea de regresión ajustada por el método de mínimos cuadrados tiene ciertas 
propiedades que vale la pena mencionar. l 


n 
e La suma de los residuales es igual a 0: Y e, = () y, como consecuencia 
i=] 


de esta propiedad, tenemos la propiedad de que /a suma de los valores 


observados Y; es igual a la suma de los valores ajustados, Ê : 


n n A 
A 
i=l i=l 
i 2 as 
e La suma de los residuales elevados al cuadrado, ba e; , es un mínimo. 


e La línea de regresión siempre pasa por el punto (x ; y). 


Estimación de la variancia del error (o°) 


La variancia del error, o“, es también una medida de qué tan bueno es el ajuste 
realizado por la función de regresión. Es necesario tener una estimación de la 
variancia del error a partir de los datos de la muestra. 


A s 2 ; 
Para poder obtener una estimacion de o°, es necesario conocer los valores de los 


A 


residuales del análisis de regresión, Y, — Y, =€;, y obtener la suma de sus 


cuadrados, que denotaremos SCE: 


A 


SDP ED EE (8.10 
i=] 


i=l i= 


Finalmente, calcularemos la variancia correspondiente a dicha suma de 
cuadrados — que se denomina cuadrado medio del error y que denotaremos 
CMe - dividiéndola por sus grados de libertad: l l 


-h 
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(8.11) 


y éste es el estimador de la variancia del error que estamos buscando: E(CMg) = 
o. 

Para realizar las inferencias necesarias para tomar decisiones, debemos 
suponer una distribución para los términos del error. Para el modelo que estamos 
utilizando supondremos que los errores tienen distribución normal con media igual 
a 0 y variancia igual a o, es decir que el modelo de regresión completo es el 


siguiente: Y, = 8, + B,- X, +€,, donde Y; es el valor de la variable respuesta 


correspondiente a la ¡-ésima unidad, X; es el valor de la variable independiente en 
esa misma unidad, o y 84 son los parámetros de la regresión y los «; son los 
errores independientes que tienen distribución normal con media 0 y variancia o. 


Coeficiente de determinación 


El coeficiente de determinación, R? , es una medida descriptiva del grado de 
asociación lineal entre las dos variables. Está compuesto por la Suma de 
Cuadrados Total (SC707), que mide la variación total en las observaciones Y; y la 
Suma de Cuadrados de Error (SC) que mide la variación residual en las Y; 
cuando se emplea el modelo de regresión. Una medida natural de la magnitud del 
efecto de X de reducir la variación en Y es: 


R? (8.12) 
SCror SCror 
donde: 
SCroy = SC, = >, - y) (8.13) 
i=l 
y SC, => le) | (8.14) 


SC; = > (Y, -P = (Y, Dj -b,X,) 0 (8.15) 


¡=1 i=l i=l 


El coeficiente R° indica la proporción de la variación total de Y puede ser 
explicada por la dependencia lineal de X. Entonces, 0 < R? <1. Si todas las 
observaciones caen en la recta ajustada y ésta no es horizontal, entonces la SCE 
=0y R?= 1. La variable X explica toda la variación en las observaciones Y; La 
variación en Y está completamente ligada a X, por lo tanto, al cambiar X, cambia 
también Y, de tal forma que todos los puntos (x;y) se ubican sobre una recta. 

Si no existe regresión lineal, Rê? = 0, SCE = SCror, lo que indica gue no 
hay asociación lineal entre X e Y y que la variación en X no es de ninguna ayuda 
para explicar la variación de las observaciones Y; Es decir que los valores de Y 
cambian en forma totalmente aleatoria con respecto a X o forman otro tipo de 
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asociación que no es lineal simple. En la práctica no es probable que R“ sea 
exactamente igual a 0 o a 1: lo más común es que. se encuentre entre ambos 
valores. Cuanto más cerca de 1 esté el valor, más grande será el grado de 
asociación lineal entre X e Y. Así, un valor de R“ = 0.80 está indicando que el 80 
% de la variabilidad en Y es explicada por la dependencia lineal de Y con 
respecto a X. Para el ejemplo de los lotes de Picea: l l l 


g2 SC -5Cr _ 1366060 0 995 
Se 13660 


es decir gue el 99.5% de la variabilidad en el número de Horas-Hombre de 
trabajo, es explicada por el tamaño del lote. 


Inferencias en el análisis de regresión 


Inferencias para 51 


Como se dijo antes, £, es la pendiente de la línea de regresión y obtener una 
estimación de este parámetro nos permite tener una idea del cambio esperado en 
la variable respuesta ante un cambio determinado en la variable predietořa. La ` 
prueba de hipótesis más común acerca de £; es la siguiente: Ho: B, = 0 vs. Hi: A 
+ 0. Si Ho es cierta, entonces se estima que no existe asociación alguna eňtre X e 


Y. En la Figura 12 se muestra un caso en que pı = 0, es decir que E(Y) = Bo + 0X 


= Do- 


Distribución por muestreo de b; 


Como se adelantó al principio de la clase, el estimador puntual de £; es b4: 


y (x, -X). (Y, -7) 


= EL A (8.16) 


e -X) 


1 


y su distribución por muestreo es normal, con las siguientes media y variancia: 


2 
O 


y, -X) | 


Elb) =b y o*(b)= (8.17) 
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Distribución por muestreo de 
s(b,) 


El estadístico que utilizaremos para las pruebas de hipótesis acerca de 5, es el 


b par P g 
estadístico estandarizado o que tiene distribución normal standard y 
olb, 


b, — 
estimaremos o(b,) mediante s(b4). Finalmente, bajo Ho, A tiene distribución 
S 1 


t-2 para el modelo que estamos utilizando, siendo 


CM 
s’ (b )= L (8.18) 
> le > x) 
Intervalos de confianza para 5; 
Sabi b, =P, : m. e VM © 
ido gue tiene distribución t, el1C4 
sí 9 2 | 
b,— B 
Resulta: P< t <2 <t , =l-a 81 
esulta la 36) LY „o (8.19) 
Sea: Ph, l SB)SA Sbi +, o, -s(b,)j=1-a (8.20) 


Ejemplo. Siguiendo con el ejemplo de los tamaños de lote, supongamos 
que se desea obtener un IC9s para £. Los cálculos necesarios son los 
siguientes: 

n= 100; X = 50; bo = 10.0; b; = 2.0; 

Y =10.0+2.0.X; SCe = 60; 

CMe = 7.5; 

Y (x, - X) =3400; 

Y (x, -X)- (Y, -Y)=6800; 

Y (Y, -FY =13660; 

s (b) 


__ CM, __ 73 002206 
3400 


y s(b,) = 0.04697. 


Para el lC; hallamos que ts:0.975 = 2.306 y, entonces: l 


2.0 — 2.306-(0.04697) < B; < 2.0 + 2.306:(0.04697), 
es decir, 1.89 < p4 < 2.11. - 


Así que; con una confianza del 95%, estimamos que el número medio de 
Horas-Hombre se incrementa entre 1.89 y 2.11 por cada incremento de 
una unidad en el tamaño del lote. 
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Pruebas de hipótesis para fı 


Prueba bilateral. 
Supongamos que se desea probar si existe alguna asociación lineal entre los 


tamaños de los lotes y el número de Horas-Hombre, es decir: Ho: 84 = 0; H4: Bi + 
O. E i 


b 
La estadística de prueba es: /* = T y la regla de decisión con un nivel 
sio, 


de significación a es: 


1 * . i * 
si |t| < Ho/n-2 , no se rechaza Ho; si [f*| > afin , se rechaza Ho. 


Para el ejemplo de los tamaños de lote, con a = 0.05, by = 2.0, s(b1) = 
0.04697 y tgoo7s = 2.306 la regla de decisión es aceptar Ho si J| < 2.306 y 
rechazar Ho si |t*| > 2.306. Dado que: 


2.0 


? ps EP = 42.58 > 2.306 
0.04697 


se decide rechazar Ho y concluir en que £; + 0, o sea que existe una asociación 
lineal entre los tamaños de los lotes y el número de Horas-Hombre. Medianté el 
menú Estadísticas — Probabilidades y cuantiles de Infostat podemos ver que 
el valor p para el resultado de la muestra es casi 0. Y, por tanto, el valor de p 


bilateral también es casi 0. 


Prueba unilateral. 


En este caso las hipótesis son: Ho: 8, < 0; H4: fB1 > 0 y la regla de decisión basada 
en la prueba t: si |t*] < Dina se acepta Ho; si |t] > ina se rechaza Ho. Con 
a = 0.05, fg:095 = 1.860 y t = 42.58, decidimos rechazar Ho, O sea que concluimos 
en que A8, es positivo. 


Inferencias para fo 


Distribución por muestreo de by 


Como se indicó antes, el estimador puntual bo es b, = Y —b, - X 
y la distribución por muestreo de by es normal con media y variancia E(bo) = fo 


(8.21) 


y  o(b)= 


respectivamente. 


Un estimador de o*(bo) se obtiene reemplazando o“ por su estimador 
puntual CME: 


s’ (by)= CM,- EE ACA (8.22) 
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bo — Bo 


Distribución por muestreo de 
sba) 


b, — 
T tiene distribución t2. Por tanto, se pueden establecer intervalos de 


confianza y pruebas-de hipótesis usando la distribución t 


Intervalo de confianza para B 
Límites de confianza con 1 - a para fo: Po T ea «sÍb, ). 


Ejemplo. Si se desea construir un |Coo, hallaríamos primero fg:0.95 Y S(bo). Tg:0.95 = 
1.860 y, por los resultados previos, sabemos gue: 
1 X? E | 1 50 


10 3400 


s’ (b,)= CM; - — + 


4 Se] 


s(bo) = 2.50294. = 
Y el ICs para fo es: 10.0 — 1.860-(2.50294) < fo < 10.0 + 1.860-(2.50294), es 
decir, 5.34 < Bo < 14.66. 


| =6.26471 y 


Inferencias para la media de Y dado X 
Otro aspecto fundamental del análisis de regresión es que, conociendo la función 
de regresión que ajusta los datos, también se puede conocer el valor esperado de 


la variable respuesta, E(Y,), correspondiente a un valor determinado de la variable 
predictora, X, Por tanto, también se pueden construir intervalos de confianza con 


respecto a Y,. El estimador puntual de E(Y,) es A : Y, =b tI Xy. 


Distribución por muestreo de y 


La distribución por muestreo de Y, es normal con las siguientes media y variancia: 


—L 
>) 2, M a (8.23) 


ás Nx, -x) 


E(Í, ) = E(ro y o? 


Cuando CM£ es sustituido por o“ se obtiene s (7, y la variancia estimada de ya 


l (x,-X) 


s*(P,)=CM, - > Sex) (8.24) 


k - E(Y,) 


Distribución por muestreo de 
| sů) 


A 


= EV, 
k el ná distribución t,2 y, por esto, las inferencias acerca de E(Y,) se 
sl k | | | 


realizan con la distribución t. 


106 


P 


Capítulo 8 


Intervalo de confianza para E(Y,) 


> 


Un IC de 1- æ para E(Y) es: Y, TE sl A 


Ejemplo 1. Buscar un ICs para E(Y y) para Xx = 55. Hallamos la estimación 


puntual Y, : Ê, =10.0+2.0-(55)=120. 
E (55-50) 


Luego, sí Y ): sÈ, )= 7.5. 5 + 


=US0913, 
10 3400 


de manera que 

slÊ,, )=0.89730. © | 

Para un coeficiente de confianza del 90% tenemos ts:o.95 = 1.860. Luego, el 1Cgg 
es: 


120= 1.860-(0.89730) < E(Y55) < 120 + 1.860-(0.89730), 
es decir, 118.3 < E(Ys5) < 121.7. 


ANEXO 1 
Ecuaciones Normales 


Las ecuaciones normales pueden ser derivadas mediante el cálculo. Para un 
conjunto de observaciones muestrales dado, (X;, Y), la cantidad Q de la página 95 


es una función de Bo y 64. Obtenemos: . 


2M 


Pox EA 
SS ÁSM 


Posteriormente, igualamos estas derivadas a 0, utilizando bo y b4 para denotar los 
valores particulares de Lo y £r, respectivamente, que minimizan a Q: 


-2- $ (Y, -bo -bı -X,)=0 
2-9 X (Y, -b -b -X,)=0 


Simplificando, obtenemos: 


E -b -b -X,)=0 


Disociando la suma obtenemos: 


Y Y, mb, -b,),X,=0 
TXY =a XA -KX =0 
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de las cuales, reordenando los términos, se obtienen las ecuaciones normales [9]. 


El cálculo las derivadas segundas mostraría que, con los estimadores de mínimos 
cuadrados bo y b4, lo que se obtuvo es un mínimo. 


Y Pl an by tb, y X 

O AD 6 
Como dijimos, el objetivo del método de mínimos cuadrados es hallar 
estimaciones bo y b, para Bo y D1, respectivamente, para las cuales © sea 


mínima. Después de las correspondientes manipulaciones algebraicas (que aquí 
no detallaremos), se llega a las siguientes dos expresiones para bo y by: 


Z s = NANA 


donde X e Y son las medias de X e Y, respectivamente. 


1 


Ejercicios. 


8.1 Para estudiar la asociación entre el consumo de sal y la presión arterial 
se seleccionaron 6 voluntarios entre los estudiantes de una Universidad, 
a cada uno se le administró una dosis determinada de sal en la dieta y se 
midió su presión arterial después de un tiempo de tratamiento. A 
continuación se presentan los datos obtenidos en el experimento y los 
resultados de un análisis de regresión lineal simple realizado con los 


mismos: 
a a 


110 
110 
112 

20 


je 2 

a. Identificar la población y las unidades muestrales. 

b. Identificar la variable independiente y la variable dependiente. 
Señalar cuál es aleatoria y cuál no y explicar por qué. 

c. Construir el gráfico de dispersión e interpretarlo. 

d. Escribir un modelo de regresión lineal apropiado para este estudio. 

e. Explicar el significado de cada parámetro en términos del problema. 
Aclarar las unidades de cada parámetro.. 

f Calcular los estimadores de mínimos cuadrados de los parámetros 
del modelo. 

g. Estimar la varianza de la variable dependiente. 

h. Construir intervalos del 95 % confianza para los banero del 
modelo. 

i Poner a prueba la hipótesis nula: No hay asociación entre el consumo 
de sal y la presión arterial. 

j. Calcular e interpretar el coeficiente de determinación. 
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k. Calcular el residual correspondiente a la segunda observación. 
L Estimar la presión esperada para individuos que consumen 2,5 gr de 
sal por día con un intervalo del 95% de confianza 


Un productor hortícola necesita establecer el crecimiento esperado de 
una nueva variedad de repollo con las dosis de fertilizante de uso 
habitual en otras variedades de la misma especie. Para comprobarlo, 
realiza un experimento en 14 parcelas cultivadas con la nueva variedad, 
En cada parcela aplica una dosis determinada de fertilizante y mide el 
crecimiento promedio del diámetro de la hortaliza al cabo de tres 
semanas. A continuación se presenta el gráfico de dispersión y un cuadro 
con los datos obtenidos. 


P 
E 
G 

< 
© 

2 
c 

po, 
E 
o 
© 
2 
o 


0.63 1.25 
Dosis (l/m 2) 


re E TE TETA E JETI E EEE 
Dosis (/m')— oo|o5|os|os|o.9|1o|12|12|13|15|16|18|18|20 
¡crecimiento em) 14 [7 16 o 17 Tio Tm Ji lis [14 [16 16 16 [19 ] 


a. Identificar la población y las unidades muestrales. 
b. Identificar a la variable independiente y la variable ala dd 
Señalar cuál es aleatoria y cuál no y explicar por qué. 42045 
c. Proponer un modelo de regresión lineal simple para desirible da 
relación estadística entre el crecimiento en diame tro oae pa e 
de repollo y la dosis de fertilizante. Y= paspa Xa E 
d. Explicar por qué se trata de una 0 estadística 7 no nus una 


relación funcional. Funeral © de cum Ln fax! 
e. Ajustar el modelo rones ( a. es, on bs o Bo B P 
y 0?) 


f. ¿Que resultado da la prueba de la hipótesis B; = O con un nivel de 
significación a = 0,052 Presentar la conclusión en términos de la 
interpretación biológica del problema. 
g. Construir un intervalo del 95 % de confianza para crecimiento 
esperado de una planta de repollo que crece en una parcela tratada 
con 1,6 l/m?* del fertilizante en cuestión. 


8.3 Con el fin de elaborar un modelo para predecir el rendimiento promedio 
de las plantaciones de una cepa de uva a partir del número de racimos 
promedio por planta al fin de la floración, se obtuvieron datos en 12 
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plantaciones de esta cepa tomadas al azar en el área de San Rafael 
(Mendoza). A continuación se presentan: los «datos obtenidos y los 
resultados de un análisis de regresión lineal simple realizado a partir de 
los mismos. l 

Número de racimos 

por planta 


Rendimiento [tn/ha] 


Coeficientes Error típico Estadísticot Probabilidad 
Intercepción (bo) -1,02548909 0,78908011 -1,29960073 0,22289749 
Num. de racimos (br) 0,05144651  0,00731375 7,03422011 3,5b656E-05. 


a. Identificar las unidades muestrales, la muestra y la población 

b. Identificar la variable independiente y la variable respuesta 

(Notar que en este caso ambas variables son aleatorias. Por 

eso, la inferencia acerca de los parámetros del modelo es sólo 

aproximada). i | 

Construir el gráfico de dispersión e interpretarlo. 

" Sobre el gráfico, dibujar la recta de regresión estimada. 

e. Escribir el modelo de regresión lineal correspondiente al 
análisis presentado. 

f Aclarar las unidades en que se mide cada parámetro del 
modelo. 

g. Construir un intervalo del 95% de confianza para la pendiente 
de la recta de regresión. 

h. Explicar qué significa el intervalo construido. 

i Calcular e interpretar el coeficiente de determinación. 
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8.4 En una estación experimental de Rafaela, Santa Fe se realizó un ensayo 
para evaluar el efecto del nivel de suplementación con alimento 
balanceado (Kg/día/animal) sobre la producción de leche (Its/día/animal) 
de vacas de raza Holando-Argentina. Para ello se tomaron 9 vacas al 
azar dentro de un rodeo lechero, a cada una se asignó una dosis de 
alimento balanceado y se midió su productividad diaria promedio durante 
la lactancia. En las siguientes tablas y figuras se resumen los resultados 
obtenidos de un análisis de regresión lineal efectuado con los datos 


obtenidos 
Analisis de Regresión Lineal 


Variable N R? 
Leche 9 0.93 


Coeficientes de regresión 
Coef. Estimad. Error UIo5u) LSpos%) t p 


Interc. 18.36 0.65 16.82 19.89 28.25<0.0001 
Pendiente 130 0.14 098 1.62 9.53 <0.0001 
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Litros leche/dia animal 


0.00 2.00 4.00 6.00 8.00 10.00 
Balanceado [kg/día] 


Identificar las unidades muestrales, la población, la variable 
independiente y la variable aleatoria respuesta. e 
Escribir la ecuación de regresión lineal estimada e interpre tar : 
en términos agronómicos los estimadores de los parámetros. + 
Indicar en el gráfico el valor de la ordenada al origen. | 
Según la ecuación propuesta en (a), ¿qué producción de leche 
promedio puede obtenerse con un nivel de suplemento de 5.5 
Kg. diarios de balanceado por animal? 

¿Cuál sería el valor esperado de la producción obtenida con una 
suplementación de 15kg de alimento balanceado por día? 
Comentar desde un punto de vista agronómico y estadístico su 
respuesta. 

Interpretar el valor p < 0.001 asociado con la estimación de la 
pendiente. | 


8.5 El nitrógeno es un nutriente fundamental para el crecimiento de las 
plantas porque forma parte de los pigmentos y enzimas que intervienen 


en la fo 


tosíntesis. Un estudio de fisiología vegetal evaluó el contenido de 


Nitrógeno y el contenido de clorofila, el principal pigmento de la 
fotosíntesis, en 10 hojas de plantas de trigo seleccionadas al azar de 
diferentes macetas donde crecían con diferentes dosis de fertilizante 
nitrogenado. Ambas variables fueron medidas en milimoles /m“ de hoja. 
A continuación se presentan los resultados de un análisis de regresión 
lineal simple realizado con los datos obtenidos 


Constante 
Nitrógeno 


a. 


Estadísticos de la regresión 


R? 0.87534459 
Error típico 0.05761168 
N. 10 

Coeficientes EE Ť Valor LI(95%) LS(95%) 
0,0472 0,0427 1,1050 - 0,3013 -0,0513 0.1458 
0.0037 00005 „AM IL. nn E T EA 


Identificar las unidades muestrales, la muestra y la población. 


b. Escribir el modelo de regresión y describir cada parámetro en 


términos del problema 
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c. Aclarar las unidades en gue se mide cada parámetro del 
modelo. | 
Escribir la ecuación de regresión estimada. 

2) Estimar la varianza de la variable dependiente. ¿Qué unidades 

> tiene? | 

f. Calcular los valores que faltan en la tabla de resultados. 

g. Formular las hipótesis necesarias para establecer si el 
contenido de clorofila de las hojas de trigo aumenta con su 
contenido de Nitrógeno en términos de los parámetros del 
modelo. | 

h. ¿Que resultado da la prueba de estas hipótesis con un nivel de 
significación a=0,05? Justificar. (Notar que en este: caso 
ambas variables son aleatorias. Por eso, la inferencia acerca de 
los parámetros del modelo es sólo aproximada). 


El exceso de fertilización nitrogenada puede provocar serios problemas 
ambientales. Cuando las plantas no alcanza d absorberlo, parte del 
nitrógeno aplicado llegar al agua subterránea y contaminarla. Un 
estudiante investigó este tema en su trabajo de intensificación. Para 
ello, tomo una muestra aleatoria de 21 establecimientos del partido de 
Baradero y en cada uno registró la dosis promedio de fertilizante 
aplicada en los últimos 20 años (kg/ha/año) y el contenido actual de 
Nitratos (ppm) en el agua subterránea. Con los datos obtenidos, realizó 
un análisis de regresión lineal simple para establecer si el nivel de 
contaminación nitrogenada del agua subterránea depende del volumen de 
fertilizante aplicado. Los resultados del análisis figuran a continuación. 


e . .. 


Estadísticos de la regresión 


Coeficiente de determinación R? 0,9652 
11,7662 


po | coeficientes | Error Tipico | 
15,6643 46288 
Dosis fertilizante | 0,4129 0,0257 


a. Identificar la población, la muestra y las unidades muestrales 

b. Escribir el modelo de regresión lineal correspondiente a este 
análisis y explicar el significado de cada parámetro en 
términos del problema. i 

c. Poner a prueba la hipótesis nula: No hay asociación entre el en 
contenido de nitratos del agua subterránea y la dosis de 
fertilizante promedio aplicada. Concluir en términos del 
problema (Notar que en este caso ambas variables son 
aleatorias. Por eso, la inferencia acerca de los parámetros del 
modelo es sólo aproximada). 

d. Construir un intervalo del 95% de confianza para el contenido 
de nitratos del agua subterránea de un establecimiento que no 
aplica fertilizante. m 
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A [8.7 En el marco de un estudio sobre manejo de la fertilidad del suelo, se 
realizó un experimento para evaluar los efectos de la aplicación de 
fertilizantes orgánicos dentro de un campo experimental. Para ello, se 
delimitaron 16 parcelas 400m* cada una y a cada una se le asignó al azar 
una dosis de de compost de residuos urbanos Las dosis aplicadas fueron 
O, 6, 12 y 36 tn/ha. En el siguiente cuadro se indican las cantidades de 
nitrógeno inorgánico (Kg/ha de Nitratos + Amonio) en los primeros 20cm 
del suelo medidas en cada parcela 1 año después del tratamiento: 


Nitrógeno 
Inorgánico 
(Kg/ha) 


Dosis compost 


Parcela (Tn/ha) 


a. Dibujar un esquema de como pudo haber estado distribuido el 
experimento en el campo. Discutir la forma en que cada dosis 
de compost fue asignada a cada una parcela. | 

. Realizar un gráfico de dispersión y comentarlo. 

c. Escribir el modelo lineal correspondiente y describir cada 
parámetro en términos del problema. Calcular y graficar la 
recta de regresión. 

d. Estimar la varianza de la variable dependiente. ¿Qué unidades 
tiene? 

e. Construir intervalos del 95 % de confianza para los 
parámetros. ¿Que unidades tienen sus extremos? 

f. Poner a prueba las hipótesis de que los parámetros del modelo 
valen cero (a = 0.05). ¿Cómo se interpreta cada hipótesis? 

g. Para una dosis de 3 Th/Ha de compost, ¿cuál sería el total de 
nitrógeno en el suelo? ¿Y para una dosis de 25 Tn/Ha? 

h. Calcular e interpretar el residual para la 5° observación. 

¡Calcular e interpretar el coeficiente de determinación. 


8.8 El girasol es una planta de polinización entomófila, esto significa que, 
para que produzca semillas, sus flores deben ser visitádas por insectos 
que transportan el polen. Por este motivo, el rendimiento de los cultivos 
de girasol depende críticamente de la actividad de los insectos 


113 


Capítulo 8 


8.9 


114 


polinizadores. Con frecuencia, los insectos que se encuentran 
naturalmente en los lotes cultivados no alcanzan a polinizar todas las 
flores y por eso el rendimiento aumenta si en ellos se instalan colmenas 
de abejas. En una cooperativa agrícola, los productores condujeron un 
estudio para evaluar la relación entre. densidad de abejas y el 
rendimiento de sus cultivos de girasol. Para ello, seleccionaron al azar 6 
grupos de 10 lotes sembrados y en los lotes de cada grupo instalaron 
respectivamente O, 2,4,6, 8 y 10 colmenas por ha. Luego registraron el 
rendimiento obtenido en cada lote y se realizaron un análisis de 
regresión lineal simple. A continuación se presenta un gráfico de 
dispersión con los datos obtenidos y parte de los resultados del análisis: 


Estimadores Error Típico 


= | i = Bas. -0025 
pe 0 $ 
= a os 3 b; = 0.058 0.004 
= i : z 8 © 
= 24 o - M 72 
32 © 4 « Y (Y, -P)? =3,062 
SOE 8 a 
A jj 2 
no" Zo 
= 2048 5 = 
Es Y (X; - XY =700 
1.8 
1748. © | | X=5 
16- AAAAz=zA 1711777 
0 2 + ZA B 50 Y =2,396 
Colmenas (nro) 
N = 60 


¿Cuál fue el objetivo del ensayo? 

Identificar a las poblaciones, las muestras, la variable aleatoria 
consideradas en este problema 

Escribir el modelo de regresión lineal simple y explicar el A de 
cada parámetro en términos del problema. 

¿Cuál es el dominio del modelo? 

Agregar en el gráfico la recta de regresión estimada. 

Estimar el residual no explicado por el modelo para un lote que tenía 8 
colmenas/ha y rindió 2.41 tn/ha. | 

Estimar la varianza de la variable aleatoria. 


Poner a prueba la hipótesis nula: No hay asociación entre el rendimiento | 


del girasol y el número de colmenas/ha. 


Calcular en coeficiente de determinación e interpretarlo en términos del 


problema. 


Los técnicos de una empresa evalúan alternativas para el alquiler de un 
equipo para regar 100 has de cultivo de soja. Las opciones disponibles 
son 3 equipos con diferente capacidad (mm/día) y diferente costo de 
uso total en toda la campaña ($): Equipo A. (Capacidad = 10 mm/día, 
Costo = $ 15000.-), Equipo B. (Capacidad = 20 mm/día, Costo = $ 
20000.-) y Equipo C. (Capacidad = 30 mm/día, Costo = $ 35000.-). Los 
técnicos saben que el precio neto de venta de la soja es de $12/quintal y 
cuentan con información de experiencias realizadas en la misma 
localidad que permitieron estimar la asociación entre el rendimiento de 
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la soja (quintales/ha) y la intensidad de riego (mm/día). A continuación 
se presentan los principales resultados del análisis de dicha información: 


Coeficientes de regresión y estadísticos asociados 


Coef Est. EE LI(95%) LS(95% T - p-valor 
const 8.39 072 697 9.81 1171.  <0.0001 
R 


B 


iego(mm/dia) 115 | 0.04 107 1.22 30.10 <0.0001 


Quintales Soja / ha 


Epa EOS Ta 
20.00 30.00 40.00 
Riego mmídia 


¿La información disponible es suficiente para aceptar que el rendimiento 
esperado del cultivo de soja aumenta con la intensidad de riego aplicada? 
Justificar la respuesta 

Producir intervalos del 95 % de confianza para el rendimiento esperado 
del cultivo de soja con cada uno de los tres equipos de riego y de un 
cultivo no regado. 

¿Cuál equipo de riego elegiría? Justificar la respuesta 

¿Qué utilidad tienen los datos disponibles para estimar el rendimiento de 
soja regada con 100 mm/día? Justificar la respuesta 

En caso de que el precio de la soja aumentara, ¿cuál debería ser este 
aumento para que usted cambie de opinión sobre el equipo de riego a 
elegir? | 
¿Cuál debería ser el aumento del precio neto de la soja para que no 
conviniera alquilar ningún equipo de riego? 
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ANALISIS DE DATOS CATEGORICOS - 


La distribución 9“ tiene un gran campo de aplicación en el análisis de variables de 
naturaleza categórica, es decir, cuando se trata de datos de frecuencia. En 
ciencia e ingeniería, muchas veces se cuenta con información acerca de la 
cantidad de veces que aparece una determinada característica en una muestra y 
en esta clase se verá cómo se puede recurrir al empleo de la distribución + para 
analizar este tipo de datos. Concretamente, se verán dos aplicaciones directas: (1) 
las pruebas de bondad del ajuste, y (ii) tablas de contingencia. Entre estas 
últimas veremos las pruebas de homogeneidad y las pruebas de 
independencia. 


Pruebas de Bondad del Ajuste 


Estas pruebas se aplican cuando se desea contrastar una distribución de 
frecuencias observada en una muestra con una distribución de frecuencias 
teórica o que responde a un determinado modelo o situación preconcebida. Para 
aplicar la prueba de 9 de bondad del ajuste se necesita una, tabla donde se 
encuentren registradas las frecuencias observadas y las frecuencias teóricas O 
esperadas según el modelo. El estadístico que se utiliza en estas pruebas es el 
siguiente: E 


Vs) 2 py o (8) 


donde k es el número de categorías y 0; y e, son las frecuencia observada y 
esperada en la ¡-ésima categoría, respectivamente. Este estadístico tiene una 
distribución É con un número de grados de libertad (v) igual a la cantidad de 
categorías menos 1. Una aclaración muy importante: tanto o; como e; deben ser 
frecuencias absolutas, no frecuencias relativas o proporciones. 


Ejemplo. 

Son conocidos en Genética los experimentos clásicos conducidos por 
Mendel en los albores de esa ciencia, en los que se buscaba determinar 
el modo de herencia de una serie de caracteres cualitativos observados 
en plantas de arveja. Uno de los caracteres estudiados por Mendel era el 
tipo de tegumento de la semilla. Mendel tenía arvejas con dos tipos de 
tegumento: rugoso y liso. Según su hipótesis, en cruzamientos realizados 
entre ciertos tipos de plantas, el esperaba que aparecieran en la 
„descendencia de dichos cruzamientos, arvejas de tegumento liso y rugoso 
en la proporción 3:1, es decir, 3 semillas de. tegumento liso por cada 
semilla de tegumento rugoso. Supongamos que en un experimento en el 
cual se obtiene una descendencia compuesta por 100 semillas, un 
genetista encuentra 285 semillas de tegumento liso y 115 de tegumento 
rugoso. ¿Sería razonable, con a = 0.05, pensar que esa proporción 
observada no está demasiado alejada de la proporción 3:1 dictada por la 
ley de Mendel? 


1. Hipótesis. Ho: la proporción es 3:1; H4: la proporción no es 
SL 


2. Nivel de significación. æ = 0.05. 


a 
3. Estadística de la prueba. Xy =D E — que se 


j=l E 
distribuye como x puesto que, para esta prueba k = 2 y, por 
consiguiente, v=2-—1=1. 
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4. Regla de decisión. P( y? > 3.84)= 0.05. Rechazamos Ho 


sí, y sólo sí, el valor de É calculado es mayor que 3.84. En 
caso contrario, se acepta Ho. 


5. Cálculos. 
Tabla 9.1. 


| Tegumento | oy [e oi eil(oi-eNel 
[Liso | 285 |400-(3/4) =300| -15 | 075 | 


aoo j «40 | — | 30 | 


6. Decisión. Puesto que 3.0 < 3.84 no puede rechazarse Ho: 
con a = 0.05. Los datos de la muestra no constituyen una 
prueba suficiente como para dudar de que las proporciones 

© verdaderas son 3:1. 


Tablas de contingencia 


En una tabla de contingencia la información también está formada por cuentas o 
frecuencias organizadas en f filas y c columnas y se dice entonces que se tienen 
dos criterios de clasificación. Se pueden describir dos situaciones posibles. 


(1) Hay f poblaciones de interés, cada una en una fila de la tabla, y en 
cada población se describen c categorías o atributos. Se toma una muestra de 
cada población y las frecuencias se anotan en las celdas de la tabla. 


(2) Hay una sola población de interés y cada individuo es clasificado 
respecto a dos factores diferentes. Hay f categorías de un factor y c categorías 
del otro factor. Se toma una sola muestra y se anota el número de individuos en 
cada categoría de ambos factores. 


Las situaciones de tipo (1) se conocen como pruebas de homogeneidad 
y las situaciones de tipo (2) como pruebas de independencia. Estas pruebas 
son muy parecidas; de hecho en ambas se utilizan tablas de contingencia y se 
calculan los valores esperados y los grados de libertad de manera similar. Lo que 
diferencia ambas pruebas son las hipótesis. El estadístico que se utiliza es el 
mismo que el empleado en las pruebas de bondad del ajuste: 


e I lo —e Y 
=D sla) | | (9.2) 


j=l il ij 


donde f es el número de filas, c número de columnas, Oj y es son las frecuencia 
observada y esperada en la celda ij, respectivamente. Este estadístico tiene una 
distribución Va con un número de grados de libertad igual a v= (f— 1)(c — 1). Por 
ejemplo, si la tabla de contingencia fuera 2 x 2, tendríamos una cantidad de 
grados de libertad igual a v= (2— 1)(2- 1) =1. 


Pruebas de homogeneidad 


Estas pruebas se utilizan cuando se desea determinar si las proporciones de las 
diferentes categorías son las mismas para todas las poblaciones. La hipótesis 
nula establece que las poblaciones son homogéneas con respecto a las 
categorías y la alternativa establece que no lo son. Otra manera de abordar el 
mismo problema es preguntar si las muestras provienen o no de la misma 


población. 
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Obtención de los valores esperados 


Con base en la hipótesis nula, se espera que las proporciones de las distintas 


categorías dentró de cada población, son iguales para todas las poblaciones y, . 


por tanto, a las proporciones marginales. Esto equivale a decir que para la celda 
ij el número esperado será igual a: SE 


n 


i 


e. =—"n.= 


N. 
: j; i : 93 
ij n 4 (9.3) 


; „Jj 
. n 
donde n; es el total de la fila ¡, n; es el total de la columna j, y n. es el total 
general. 


Ejemplo. 
En la siguiente tabla se resume la información sobre el tipo de marcas 
encontradas en hojas de tréboles blancos muestreados en un sitio no 
pastoreado y en otro pastoreado. En cada sitio se muestrearon 550 y 450 


individuos respectivamente. 


Tabla 9.2. 


Tipo de marca 


| L JELY 0 
| No pastoreado | 409 | 11 |22| 8 
14|20| 550 | 


Viendo la forma en que es planteado el problema, una hipótesis | 


nula apropiada que puede ponerse a prueba sería que la proporción de 
individuos con los diferentes tipos de marcas en las hojas es la misma 
para las dos poblaciones, o sea en cada sitio. 


Luego: 


1. Hipótesis: Ho: pı; = Pz; donde j = 1,2,3,4 son las 4 marcas e i= 1,2 
son los dos sitios. . 


H4: Paj £ Paj 
2. Nivel de significación. a = 0.05. 
2 
2 By —e,) 
3. Estadística de la prueba. Xy = que se distribuye 


e 


j=l i 


aproximadamente como 0 „Aguí v=(2—1)(4—1)=3. 


4. Regla de decisión. Plz? > 7.81)= 0.05. Rechazamos Ho si, y solo 
si, el valor de £ calculado es mayor que 7.81. En caso contrario, se 
acepta Ho. ; 


5. Cálculos. 
fxe 2 
2 (o, a e,) 


22 


i=l €; l 
_ (409—41445) P (11-6.75)' ce (20—15.4) 
741445 6.75 15.4 
11:82 
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6. Decisión. Puesto que 11.82 > 7.81 se rechaza Ho con œ= 0.05. La 
proporción de individuos con diferentes tipos de marcas no es la 
misma en las dos poblaciones o sea que las dos poblaciones de 
tréboles no son homogéneas en cuanto a su distribución de marcas. 


Pruebas de independencia 


Este tipo de prueba se aplica cuando existe interés en determinar si dos atributos 
categóricos presentan algún tipo de asociación entre ellos o, si por el contrario, 
son independientes. En otras palabras concentramos nuestra atención en la 
relación entre dos factores diferentes de la misma población. En esta prueba 
tomamos una muestra de la población y caracterizamos cada individuo según dos 
criterios de clasificación dispuestos en / filas y j columnas. A diferencia de las 
pruebas de homogeneidad donde en muchos casos los totales de filas están fijos 
por anticipado, en las pruebas de independencia solo el tamaño muestral es fijo y 
tanto los totales de filas como los de columnas son variables aleatorias. La 
hipótesis nula establece que la categoría de un individuo con respecto al factor A 
es independiente de la categoría con respecto al factor B. En otras palabras y 
recordando el capítulo de probabilidades, la hipótesis nula establece que los 
eventos son independientes y por lo tanto PANB)= P(A) P(B). 


Ejemplo. 

En el partido de Balcarce se realizó una encuesta a 930 productores de 
trigo-soja y se los clasificó según el método de siembra empleado 
(siembra convencional o siembra directa) y el área sembrada. Se 
consideraron 3 categorías: (1) área menor a 100 ha; (2) área entre 100 y 
500 ha y;(3) área superior a 1000 ha. Los resultados se muestran en la 
siguiente tabla de contingencia: 


Tabla 9.3. 


| sc | sD | 


Si el método de siembra y el área sembrada son independientes, 
esperaríamos que la proporción de productores que usan siembra 
convencional sea (350/930) = 0.376, sea cual fuere el área sembrada. Y, 
por ejemplo, el número esperado productores que usan siembra 
convencional y tienen un área sembrada reducida (categoría 1) sería: 
(274)-(350/930) = 103.1. Las frecuencias esperadas para nuestro ejemplo 
entonces son: | G 


Tabla 9.4. 


y dado que la tabla de contingencia es una tabla a 3 x 2, tenemos 2 
grados de libertad. Con esta evidencia obtenida en la muestra, ¿se puede 
sostener la hipótesis de que el. método de siembra y el área sembrada 


son independientes (a = 0.01)? 
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1. Hipótesis. Ho: el método de siembra y el área sembrada son 
independientes. H4: están relacionados. (son dependientes). Ho: 
Pi = Pop Vi, Y j H1: Py * PiP para algún par ij. 


2. Nivel de significación. æ = 0.01. 


Aral 
3. Estadística de la prueba. =D E que se 


i=] i 
distribuye como p s 
4. Regla de decisión. P(y? > 9.21)= 0.01. Rechazamos Ho si, y 


solo si, el valor de Va calculado es mayor gue 9.21. En caso 
contrario, se acepta Ho. 


5. Cálculos. 


Zo S (o, —e,) 
i=] €; i 

_(04-113.12f (180—170.88) 4 (80—13720) 
113.12 170.88 o... o... 13720 

= 87.26 


1 Decisión. Dado que 87.26 > 9.21 se rechaza Ho con a = 0.01. 
Hay evidencia suficiente para rechazar la hipótesis de due el 
método de labranza y el área sembrada son independientes. 


Ejercicios 


9.1 
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Alber's fabrica y distribuye tres tipos de cerveza: Lager, Pilsen y Stout. 
En un análisis de segmentación de mercado para las tres cervezas, el 
grupo de investigación encargado ha planteado la duda de si las 
preferencias para las tres cervezas son diferentes entre los 
consumidores hombres y mujeres. Si la elección del tipo de cerveza 


fuera independiente del género del consumidor, se iniciaría una campaña 


de publicidad para todas las cervezas de Alber's. Sin embargo, si la 
elección depende del género del consumidor, se ajustarán las 
promociones para tener en cuenta los distintos mercados meta. Se toma 
una muestra aleatoria de 150 bebedores de cerveza y después de 
saborear cada una, se les pide expresar su preferencia o primera 
alternativa. En base a estos resultados, realizar un breve informe para 
presentar en el departamento de publicidad: | 


Cerveza preferida 
Género 


| Lager [Pilsen | Stout | © 
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9.2 


9.3 


9.4 


Un semillero intenta probar un híbrido nuevo de maíz aparentemente 
resistente a heladas. Para ello se escogen 279 parcelas donde se realiza 
una siembra temprana (alta probabilidad de heladas). 139 parcelas 
escogidas al azar son sembradas con el híbrido tradicional y las otras 
140 son sembradas con el híbrido nuevo. Luego de transcurrido el 
período de heladas, se comprobó que en 31 parcelas sembradas con el 
híbrido tradicional se observaron problemas de densidad de cultivo 
(debido a muerte de plantas por heladas), mientras que 17 parcelas 
sembradas con el híbrido nuevo presentaron este problema. Concluir con 
respecto a la resistencia a heladas de estos dos híbridos. Si un 
productor. quiere sembrar temprano el maíz y le consulta. sobre cuál 


híbrido utilizar (tradicional o nuevo), ¿qué le sugeriria? ¿En qué basaría 


su respuesta? 


Otro estudio dirigido a comparar los resultados de los métodos de la- . 
branza química y mecánica examinó su asociación con la cantidad de ma- 
lezas presentes en los cultivos de maíz. Para ello, se tomó una muestra 
aleatoria de 100 lotes de maíz en el partido de Pergamino y se los clasifi- 
có según el tipo de labranza (química o mecánica) y el grado de infesta- 
ción con malezas (alto, medio o bajo). Los datos obtenidos son presenta- 
dos en la tabla: 


Grado de infestación con malezas 


| | 
Tipo de 
Labranza Mecánica Po 8 da 4 AB: 


a. Identificar a las unidades muestrales, la población y la muestra. 
b. ¿A qué tipo de prueba corresponde la hipótesis nula: no hay 
asociación entre el tipo de labranza y el grado de infestación con 


malezas? 
Poner a prueba esta hipótesis y concluir en términos del problema, 


d. Explicar qué es tipo de error se puede haber cometido en este 
análisis 


A 


Un nuevo producto funguicida es promocionado asegurando que aumenta 
la tolerancia de las plantas de trigo a cierto hongo. Para evaluar este 
fungicida, los técnicos del INTA tomaron 100 plantas de trigo y las in- 
fectaron con el hongo. Luego, trataron con el funguicida 50 de estas 
plantas seleccionadas tal azar y un tiempo después evaluaron el estado de 
las plantas. Entre las 50 plantas tratadas con funguicidas, 10 se encon- 
traban en buen estado, 20 se encontraban levemente afectadas y 20 se 
encontraban en muy mal estado. Entre las plantas que no recibieron fun- 
guicida, 5 se encontraban en buen estado, 20 se encontraban levemente 
afectadas y 25 se encontraban en muy mal estado. 


a. Estimar las proporciones esperadas de plantas que mantienen buen 
estado con y sin tratamiento con el fungicida. | | 
b. Explicar por qué existe incertidumbre en las estimaciones 
anteriores. | 
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c. Realizar un análisis apropiado para determinar si los resultados de 
esta experiencia demuestran gue el funguicida modifica la 
tolerancia de las plantas al hongo. | 

d. Comunicar en lenguaje cologuial la conclusión a la gue arriban los 
técnicos © s. 3 

e. Explicar qué tipo de error podrían haber cometido. 


Antes de autorizar la exportación de arándanos a los Estados Unidos, se 
realizó un control de calidad para evaluar la calidad de los cargamentos 
provenientes de diferentes provincias. Para ello se obtuvieron muestras 
aleatorias de cargamentos provenientes de Tucumán, Buenos Aires y 
Santa Fé y se determinó cuantos de ellos cumplían con las normas de ca- 
lidad fijadas con respecto al tamaño de las frutas. En la siguiente tabla 
se presentan los datos obtenidos sobre el número de cargamentos que 
superaban o no el tamaño mínimo provenientes de tres provincias produc- 
toras. 


Número de cargamentos 


Procedencia 


zo | o | 8 | 


a. Identificar las poblaciones, las muestras y. las unidades de 
observación. 

b. ¿Cual es la variable aleatoria analizada? ¿De qué tipo de variable 
se trata? 

c. Estimar las proporciones de cargamentos de cada provincia que no 
superan el tamaño de las frutas mínimo para exportación. 

d. ¿Por qué existe incertidumbre respecto de estas estimaciones? 

e. Formular y poner a prueba las hipótesis necesarias para inferir si 
las proporciones de cargamentos que no superan el tamaño mínimo 
de las frutas difiere entre provincias (a = 0,05). 

f. ¿Cuál provincia tuvo más cargamentos con frutas menores al 
tamaño mínimo que lo esperado bajo la hipótesis nula? 


Superior al tamaño mínimo 


Inferior al tamaño mínimo 


La siguiente tabla muestra los datos de un estudio medico en le cual se 
tomaron al azar 119 partos ocurridos en 2005 en la ciudad de Buenos Ai- 
res y se registró si las madres eran o no fumadoras y si su bebé tenía 
peso normal o peso bajo (menor que de 2.5 kg). | 


Número de partos 
Peso Normal 


E 


Denominemos "A" al evento "madre fumadora" y "B“ al evento “bebé na- 
cido con peso normal". 
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a. Identificar las unidades muestrales, la muestra y la población 

b. Estimar P[B / A] y P[B / AC] 

c. Formular y poner a prueba la hipótesis nula: La ocurrencia de baj jo 
peso al nacer de sus bebes es independiente del hábito de fumar 
de las madres. 

d. ¿Qué tipo de error se puede haber cometido en la ada de 
hipótesis anterior? PAP su significado en términos del 
problema. 
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EJERCICIOS ADICIONALES CON ALGUNAS RESPUESTAS 


[1] En un campo se pesaron 11 novillos. Al final de la operación se obtuvieron los siguientes datos: 


| Individuo | Peso [Kg/animal] | 

12453 | 450 | 
13458 375 

854 350 

1234 425 


El criterio establecido por la agroempresa para enviar la 
hacienda al remate/feria es un peso mayor a 390 Kg. Responda: - 


a. ¿Qué cantidad de animales de este lote será vendida? 
7 animales. 
b. ¿Qué porcentaje representa? 
63.63% 
c. Construya un histograma de frecuencias a partir de los 
datos de la tabla con solo dos clases (0-390 Kg, y más de 
390 Kg). E 
-d. Construya un diagrama de caja y bigotes para todos los 
© datos. 


[2] Se realizó una encuesta a 30 productores rurales de la zona norte de Buenos Aires y Sur de 


Santa Fe. A cada productor se le preguntó qué tipo de producción tenía (agrícola, ganadera o 
mixta). A partir de los resultados genere 


una tabla de doble entrada y conteste: 
| | 
a. ¿Qué porcentaje del total de pro- 
ductores tiene una explotación mix- 
ta? 
UENOS AIRES 66,67% 
VENOS AIRES b. De los productores con explotación 
netamente agrícola, ¿qué porcentaje 
se encuentra en la provincia de Bue- 
GANADERO d 
ds 
| MIXTO | 


nos Aires? 


[3] Dos candidatos a los consejos de administración A y B, compiten por el control de una 
corporación. Las probabilidades de ganar de estos candidatos son 0.7 y 0.3, respectivamente. Si 
gana A, la probabilidad de introducir un nuevo producto es 0.8; si gana 8, la correspondiente 
probabilidad es 0.4. Demuestre que, antes de las elecciones, la probabilidad de que sea 
introducido un nuevo producto es igual a 0.68. | 


[4] Un productor desea presentarse a una licitación de granos embolsados y por ello presta 
especial atención a que el peso de cada bolsa no se aparte excesivamente del promedio. Si el 
promedio es de 63 kg con un desvío estándar de 2 kg: - a 


a. ¿Cuál es la probabilidad de que una bolsa no se aparte más de 3 kg. del promedio? 
0.8664 
b. Si se toma una bolsa al azar, ¿cuál es la probabilidad de que pese menos de 60 kg.? 


- 0,0668 i | 
c. Si se toma al azar un lote de 10 bolsas, ¿cuál es la probabilidad de que a lo sumo una pese 


menos de 60 kg.? 
0.85945 | 
d. Si se toma un lote de 1000 bolsas, ¿cuál es la probabilidad de que a lo sumo 100 pesen . 


menos de 60 kg? 
Aproximadamente 1 


[5] Sea Xuna variable aleatoria con distribución binomial, con n= 10 y 7 = 0.5. 


a. Determinar las probabilidades de que X se encuentre dentro de una desviación estándar de 
la media y a dos desviaciones estándares de la media. | 
x.4a6, p= 0.65625 

b. ¿Cómo cambiarían las respuestas en (a) si n= 15 y 7= 0.4? 
x 2 a8, p= 0.9785 


[6] Sea Z una variable aleatoria normal estándar. Hallar: 


a. AZ<1.20) 0.8849 
b. ALILIS) 0.0918 
c. AZ<-1.70); 0.0446 
d. AZ>-1.00); 0.8413 
e. 1.20 < Z“1.33); 0.0233 
f. A-170< Z< 1.20); 0.8403 
g. A-1.70<Z<-1.00) 0.1141 


[7] Una compañía recibe un lote de insumos muy grande. Se analiza una muestra aleatoria de 16 
artículos y se acepta el lote si menos de dos resultan defectuosos. ¿Cuál es la probabilidad de 


aceptar un envío que contenga: 
a. 5% de artículos defectuosos? 0.8107 


b. 15% de artículos defectuosos? 0.2840 
c. 25% de artículos defectuosos? -0.0635 


[8] Se sabe que el dinero que gastan al año los estudiantes de la Facultad de Agronomía en libros 


de texto sigue una distribución normal con media $ 125 y desviación típica $ 25. 
a. ¿Cuál es la probabilidad de que un estudiante elegido al azar gaste menos de $-60 en libros 


de texto al año? 
0.0047 
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b. ¿Cuál es la probabilidad de que un estudiante elegido al azar gaste más de $ 150 en libros 


de texto al año? 


0,1587 
c. ¿Cuál es la probabilidad de que un diana elegido al azar gaste entre $ 80 y 2 135 en 


libros de texto al aňo? 
0.6195 

d. Se quiere encontrar un rango de gastos en libros en el cual se incluyan el 80% de los 
estudiantes de esta universidad. Explicar por qué pueden encontrarse infinitos rangos que 
cumplan esta condición, y encontrar el rango menos costoso. 
el rango menos costoso: de $0 a $146.04 l 


[9] El 90% de los árboles plantados en un monte forestal sobreviven hasta la tala final del rodal. 
¿Cuál es la probabilidad de que sobrevivan 10 o más entre 15 árboles que acaban de ser 
plantados? 

p = 0.99776 


[10] La duración de lámparas de luz producidas por un cierto fabricante tiene una media de mil 
doscientas horas y una desviación típica de cuatrocientas horas y se sabe gue la población sigue 
una distribución normal. Supongamos que adquirimos 9 lámparas, que pueden ser consideradas 
como una muestra aleatoria de la producción del fabricante. 


a. ¿Cuál es la esperanza de la media muestral de la duración de estas lámparas? 


1200 

b. ¿Cuál es la varianza de la media muestral? 
17777 

c. ¿Cuál es el error estándar de la Meda muestral? 
133.33 


d. ¿Cuál es la probabilidad de que el tiempo medio de duración de las lámparas adquiridas sea 


menor a 1050 horas? 
0.13 


[11] El dueño de una tienda de discos ha comprobado que el 20% de los clientes que entran en su 
tienda realizan una compra. Cierta mañana, entraron en esta tienda 180 personas, que pueden ser 
consideradas como una muestra aleatoria de todos sus clientes, 


a. ¿Cuál será la media de la proporción muestral de clientes que realizaron alguna compra? 
0.20 | 
b. ¿Cuál es la varianza de la proporción muestral? 
0.000889 
c. ¿Cuál es el error estándar de la proporción muestral? 
0.0298 
d. ¿Cuál es la probabilidad de que la proporción muestral sea menor que 0,15? ) 
0.04669 


[12] Una corporación ha recibido 120 solicitudes de trabajo de estudiantes que acaban de 
terminar su carrera de agronomía. Suponiendo que estas solicitudes pueden ser consideradas 
como una muestra aleatoria de todos los ingenieros, ¿cuál es la probabilidad de que entre un 35% 
y un 45% de las solicitudes correspondan a mujeres si se sabe que el 40% de los gamers 
agrónomos que acaban de terminar su carrera son mujeres? 

0.8686 


126 


A 


[13] Suponga que una muestra aleatoria de tamaño n = 25, es seleccionada de una población con 
media u, y desvío standard o. Para los siguientes valores de u y o, determine los valores de 


Hzy Oz. 
a. ¡=100y œ= 50; 
U =100y 0; =10 
b. 1=750y0=25. 
u- =750y0,=5. 


[14] Después de seleccionar una muestra y calcular el IC para y, una persona dice: "tengo una 
confianza del 88% de que la media de la población fluctúa entre 106 y 122", ¿Qué es lo que 


realmente está diciendo? 
a. ¿que hay una probabilidad de 0.88 de que y fluctúe ente 106 y 122? 
b. ¿qué hay una probabilidad de 0.88 de que el valor real de u sea 114 (el punto medio del 


intervalo)? 
Cc. ¿qué el 88% de los intervalos obtenidos de las muestras de este tamaño contendrán la 


media de la población? 
d. (a), (b) y (c) son correctas. 
Rta: c 


[15] Una muestra de 30 parcelas sembradas con algodón, arrojó un rendimiento medio de 950 
kg/ha. Sabiendo gue los rendimientos tienen distribución normal con desvío típico 25 kg/ha, 
estimar el verdadero rendimiento medio, mediante un ICg5 y un ICo9. 


ICos: 950 + 8.95kg : ICoo: 950 + 11.73kg 


[16] Un ensayo de un nuevo híbrido de maíz arrojó los siguientes resultados (Tn/ha). 


¿Estos resultados constituyen evidencia suficiente para afirmar que este híbrido es mejor que 
otro que tiene una media de rendimiento de 10 Tn/ha? (a = 0.05). 


Prueba de hipótesis de una cola, varianza estimada a partir de la varianza muestral. Valor 
+= 2.48, valor p = 0.0176. Los resultados aportan evidencia suficiente para afirmar que 
los rindes del nuevo híbrido son mayores a 10 Tn/ha. 


[17] Se estudian dos raciones, Á y B, para el engorde de cerdos. Se tomaron 8 lotes de cerdos, 
cada uno formado por hermanos de la misma lechigada, y se le asignaron las raciones 
aleatoriamente en cada lote. Los resultados, en kg, se presentan en la siguiente tabla: 


a. Probar si ambas raciones producen igual 
engorde (a = 0,05) 
b. Estimar el parámetro de interés con una 


1 12 [3 14 [5 Je 17 18 | 
75 |80|80|72|72/75|78/82 a 

confianza de o. 
|85|79|90 (68 |75]81 [88 90 c. ¿Podría decir cuál es la mejor ración? 


Justifique estadísticamente de acuerdo sus resultados anteriores. 
Rtas: (a) Prueba de hipótesis de comparación de medias apareadas. Valor += -2.74, valor 
p = 0.0289. Se rechaza la hipótesis nula. (b) -5.25 + 4.53:(c) La ración B produce 
mejores resultados que la ración A. Esto queda justificado por el valor p de la prueba y 


por los extremos del IC. 


Raciones B 
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[18] Se desea poner a prueba si el tipo de labranza influye sobre el nivel de malezas de los lotes. 
Para ello, se tomó una muestra aleatoria de 184 lotes y se los clasificó según el tipo de labranza 
(siembra directa, labranza convencional o labranza vertical) y el nivel de malezas (alto, medio, 
bajo); los resultados se observan en la siguiente tabla. 


Directa ké 
Tipo de Labranza | Vertical | 62 


H Í a e 
Convencional Spie 


¿Existe relación entre el tipo de labranza y el nivel de malezas? Use a = 0.05. 

Prueba de Independencia; ¿2 calculado: 7.63; p = 0.1061; 6 de L = 4, a = 0.05, Z 
tabla: 9.4877. Valor p > a, entonces no se rechaza Ho. No hay dicta de que el nivel 
de malezas sea dependiente del tipo de labranza. 


[19] Al finalizar un curso de asistencia no obligatoria, un profesor realizó la SIguIEnte agrupación 
basada © en la peas o no del curso y la asistencia al mismo. Usando a = 0.05, ¿a ‘qué 


Prueba de Independencia. £ calculado: 72.81; p = 1.5465- 10: G de L = 2, a = 0.05, É 
tabla: 5.9914. Valor p < a; entonces se rechaza Ho. Por lo tanto la calificación no es 


independiente de la asistencia. 


[20] Una empresa de agroquímicos sabe por datos históricos que durante el verano la venta de 
sus productos se distribuye de la siguiente manera: 60 % herbicidas, 30 % fungicidas y 10 % de 
otros compuestos. Durante el verano del “2005 se registran las siguientes ventas: 100 


corresponden a herbicidas, 15 a funguicidas, y 20 a otros productos. ¿Las ventas del verano de 


este año están en concordancia con los datos históricos? Utilice a = 0.05. 


Prueba de bondad de ajuste. ¿2 calculado: 23.64: p = 7.3489- 10% Gde L = 2, a = 0.05, 
Z tabla: %3os = 5.9915. Valor p < a; entonces se rechaza Ho. Por lo tanto las ventas de 


verano del 2005 no coinciden con lo esperado según datos históricos. 


[21] Una revista agropecuaria dispone de datos suministrados por varias empresas que fabrican y 
distribuyen agroquímicos sobre sus ventas y los gastos incurridos por cada empresa en 
publicidad en esa revista. Ambas variables están expresadas en pesos. La siguiente tabla resume 
los resultados obtenidos en un análisis de regresión lineal sobre estas variables: 


Variable N R? 

Ventas 31 0.94 | / 

Matriz de coeficientes de regresión 

Coef. Est. EE. LI(95% LS(95%)- T 

Interc. -19212.74 15251.77 -50406.10 11980.62 -126 0.22. 
Pendiente 1.76 0.08 a 158 193 20.78 0.00 
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a. Escriba la ecuación ajustada correspondiente y describa las estimaciones de los 
parámetros en términos del problema. ¿Datos sobre cuántas empresas fueron 
considerados en este análisis? n 
-19212.74 + 1.76:x: -19212.74 es la ordenada al origen, en otras palabras el 
volumen de ventas estimado cuando el gasto en publicidad es igual a O.: Aunque en 
este caso no tiene significado práctico. 1.76 es la pendiente o sea el cambio en 
ventas por cada unidad de gasto (pesos) en publicidad realizado. 

b. Usted es gerente de una empresa dé agroquímicos, considerando su respuesta en a) 
¿decidiría invertir en publicar avisos en esta revista?. Justifique su respuesta. 

La pendiente es significativa y positiva. Los gastos en publicidad explican el 94 % del 
volumen de ventas. Por lo tanto decidiría invertir en publicidad en esta revista. 

c. Calcule el valor de ventas estimado para una empresa que invirtió 200 000 $ en publicidad 
en esta revista (asuma que este valor está dentro del rango de estimación posible del 


modelo). 


ZN, 


Y= 332787.26 $, para x = 200 000. 


[22j La Secretaría de Agricultura y el Ministerio de Economía están interesados en determinar. 
cuánto será el rendimiento de maíz en la localidad de San Lorenzo en el año 2004. Se dispone de 
los siguientes datos sobre rendimiento (en quintales por ha) y precipitaciones (en mm) desde 
1992 hasta 2001. 


[Rendmiento |78 [91 [es [62 [es jes [12 [46 |106 [66 | 


a. Ajuste un modelo lineal entre ambas variables. ¿Cuál es la variable dependiente y cuál la 


independiente? | 
modelo lineal 365.86 - 0.21-x; Variable dependiente: rendimiento, Variable 
independiente: precipitaciones; 

b. Describa los parámetros incluidos en el modelo e incluya las unidades en las que deben ser 
expresados. ¿Que significa en términos del problema que exista una pendiente negativa? 
365.86 es la ordenada al origen, el rendimiento estimado cuando la precipitación es 
igual a O, aunque no tiene significado biológico. (0.21 quintales-ha”*/ mm es la 
pendiente o sea el cambio en rendimiento por cada unidad (mm) de precipitación. Una 
pendiente negativa indica que a medida que la precipitación aumenta, el rendimiento 
disminuye. | 

c. San Lorenzo es una zona de elevada precipitación gue es frecuentemente afectada por 

inundaciones. Se espera que el 2004 sea un año relativamente húmedo con 1500 mm de 
precipitaciones ¿cuál seria el rendimiento esperado?. 
rendimiento para x = 1500 mm: 50.86 quintales ha”? 


[23] En la siguiente tabla se detalla la inversión hecha y la ganancia obtenida en miles de pesos 
para 12 explotaciones agropecuarias en la prov. de Buenos Aires durante el año 2002: 


+ [inversión |1611 [14] 16[18]20]31]14[20/19/11 15 
¿[ganancia[s [2 [3 [5 [3 [7 |1ol6 |10)5 |6 16 | 


a. Presente la estimación del modelo de regresión lineal para predecir la ganancia esperada en 
función de la inversión de capital hecha. 
0.17 + 0.32- x; 
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b. ¿Presenta este modelo suficiente evidencia a un nivel de significación de 0.05 de que la 
ganancia en las explotaciones agropecuarias de la'provincia de Bs. As. está determinada por 
la inversión realizada? Justifique su respuesta. 

Si, presenta suficiente evidencia. R“ = 0.47, p = 0.01; 

c. Según el modelo propuesto ¿que ganancia se espera para una inversión de 30000 $? 
Ganancia esperada para x = 30: 9.77 miles de $: m 

d. Usando el modelo propuesto sería correcto predecir la ganancia esperada para un 
establecimiento que invierte 100000$. Justifique su respuesta. | 
No es correcto predecir la ganancia esperada para x = 100 porgue cae fuera del rango ua 
de predicción del modelo. 
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ESTADISTICA GENERAL: MODELO DE EXAMEN FINAL 


- Este examen contiene 15 preguntas con 6 respuestas propuestas cada una. Identificar y marcar 
la única respuesta correcta en cada caso. i i i l 
- Se aprueba con 9 repuestas correctamente identificadas. 


- Tiempo disponible: 2 horas 


NOMBRE Y APELLIDO: 


1. La emisión de gases contaminantes por los escapes de los autos es una de las 
principales formas de contaminación de la atmósfera. Los autos emiten tanto gases 
como el dióxido: de, carbono, que contribuyen al calentamiento global de la atmósfera, 
como substancias, altamente patógenas como los hidrocarburos y el monóxido de carbono. 
Para poner a prueba un dispositivo de control de emisiones de monóxido. de carbono, se 
tomaron al azar 10 autos de la ciudad de Buenos Aires y se midió su nivel de emisión 
antes y después de la instalación del dispositivo en cuestión. Los datos obtenidos 


son los siguientes. 


sin dispositivo de control 
con dispositivo de control 


1.1. ¿Cuál es un estimador insesgado de la varianza de la diferencia en la emisión 
de dióxido de carbono entre autos de la ciudad de Buenos Aires con-y sin el 


dispositivo bajo prueba? 


a. 2,60 g/km O d. 5,06 g/km O 

b. 6,45 g?/km? © e. 2,60 g?/km? O 

c. 6,79 g?/km? O = £. 5,06 g?/km? O 
1.2. ¿Cuál de los siguientes es el menor nivel de significación que conduce a 


aceptar la hipótesis que dice: El dispositivo bajo prueba reduce el nivel esperado 
de emisión de monóxido de carbono de un taxi? 


a. a= 3,5839 O d. a= 0,0100 | | o 

b. a= 0,9877 O e. a= 0,0050 l © 

c. a= 0,0250 i E O f. a= 0,0005 © 

1.3. ¿Cuál error puede cometerse cuando se acepta la hipótesis referida en el punto 
anterior? 

a. Tomar por ineficaz a un O d. Tomar por ineficaz a un O 
dispositivo efectivo l dispositivo sin efecto 

b. Tomar por efectivo a un © e. Tomar por efectivo a un O 
dispositivo sin efecto dispositivo efectivo 

c. Error de tipo II O f. Dar la prueba por no O 

“concluyente 
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2. La palmera Butia yatay produce frutos carnosos por fuera y leñosos por dentro 
denominados drupas. La mayoría de las drupas tienen una sola semilla (uniseminadas) 
pero un 20 % de ellas tienen dos semillas en el interior (biseminadas). 


2.1. ¿Cuál es el valor esperado del número de semillas por drupa? 


ab A o. d. 1,6 bo“ o 
b. 0,8 Ọs e. 2,0 í O 


Gr Ae © f. 2,4 


2.2. Si se toma una muestra aleatoria de 10 drupas ¿Cuál es la probabilidad de que a 
lo sumo dos de ellas sean biseminadas? ; 


a. 0,302 o d. 0,678 © 
b. 0,208 | NS O > 2840220 
c. 0,040 y 0,168 Ga f. 1 O 


2.3. Si se toma una muestra integrada por 2 drupas elegidas: al .azar ¿Cuál es la 
probabilidad de que una sea uniseminada y la otra biseminada? 


a. 0,16 o d. 0,32 
bz 020 | O e. 0,80 7 
c. 0,20 y 0,80 O ET A 


3. Una compañía ¡productora de semillá afirma que, en la Pampa Ondulada, el 
rendimiento esperado de los cultivos de su híbrido de maíz genéticamente modificado 
es de 9,94 tn/ha con una varianza igual a 0,25 tn?/ha?. Suponiendo que lo que afirma 
la compañía fuera correcto y que el rendimiento de los cultivos de dicho híbrido 


fuera una variable aleatoria con distribución normal. 


3.1. ¿Qué podría causar la varianza de los rendimientos? 


a. Todos los productores 1 O d. Se trata de un cultivar O 
aplican fertilizante. genéticamente modificado. 

b. Los suelos de la región han O e. La sequía de verano limita O 
perdido fertilidad. el crecimiento de las 

plantas. 

c. Algunos cultivos son O f. El ambiente de la Pampa O 
sembrados más temprano y Ondulada es óptimo para la 
otros más tarde en el año. producción de maíz. 


3.2. ¿Cuál sería la probabilidad de que el rendimiento de un cultivo de este híbrido 
tomado al azar superara los 10000 kg/ha? 


a. 0,0500 O d. 0,5478 O 
b. 0,4052 O e. 0,5948 O 
c. 0,4522 | © f. 1,0088 | 0) 


3.3. ¿Cuál sería la probabilidad de que la media aritmética de los rendimientos de 4 
cultivos tomados al azar fuera menor que 9500 kg/ha? 


00392 © d. 0,8925 
b. 0,1075 | o | e. 0,9608 
c. 0,6915 o E. 1,546 
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4 


En una pastura de 15 has se distribuyeron al azar 16 parcelas de 1.m*. Todo el 
forraje presente dentro de cada parcela fue cortado, secado y pesado. Con los valores 


de los pesos obtenidos y; (i =1,....16), se calcularon los siguientes estadísticos: 


4. 


4. 


Y 


1 16 | 
s? 520 - y) = 9216 g° 
T | 


1. ¿Qué es el valor s? = 9216 g7? 


Ass 


El valor esperado del O 
cuadrado de la diferencia 

entre el peso del forraje 

de una parcela tomada al 

azar y la media l 
poblacional, 


Un estimador insesgado de la 0 
varianza de los pesos de 
forraje entre todas las 
parcelas de 1m? de la 

pastura. 


Un estimador insesgado de la 0 
varianza de los pesos de 
forraje en la muestra. 


El promedio de los cuadrados 0 
de los desvíos entre los 

pesos del forraje 

observados y la media 


muestral. 


La suma de los cuadrados de a 
las diferencias entre los 

pesos del forraje 

observados y la media 

muestral. 


. La varianza de los pesos de © 


forraje entre todas las 
parcelas de 1m? de la 
pastura. 


2. Los límites de un intervalo del 95% de confianza para el peso total del forraje 
presente en la pastura son: l 


al peso total de forraje. 


= 3,6 tn/ha O 


a. l1 = 36,1 tn | O d. 1 
u = 46,3 tn u = 4,6 tn/ha 

b. L = 55,1 tn O e. 1 = 369,9 g/m? O 
u = 68,1 tn u = 454,1 g/m? 

c. k = 360,8 g/m? O Ea = 547i En © 
u = 463,2 g/m? u = 69,5 tn 

.3. ¿Qué significa el intervalo de confianza construido? 

a. La probabilidad de que este O d. Podemos tener un grado de O 
intervalo contenga a la confianza de 0,95 en que la 
media muestral es de 0,95. media muestral está dentro 

del intervalo. 

b. Podemos tener un grado de © e. La probabilidad de gue este O 
confianza de 0,95. en que el intervalo contenga al peso 
intervalo contiene al peso total de forraje es 0,95. 
total de forraje. © 

c. Es un intervalo que contiene 0 f. Es un intervalo que contiene O 


a la media poblacional. 
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5. En un estudio de fisiología vegetal se evaluó la fotosíntesis neta de cultivos de 
trigo (en gramos de Carbono fijado por m? y por hora) sometidos a diferentes niveles 


de intensidad de luz (en kWatt/m?) asignados al azar. Cuando la fotosíntesis neta es 


positiva, el cultivo gana carbono (crece) y cuando. es negativa pierde carbono (se 
reduce). A continuación se muestra un: gráfico de dispersión y los principales 
resultados de un análisis de regresión lineal simple realizado con los datos 


obtenidos. 


Análisis de regresión lineal 


Variable N R2' 
Int. de luz 16 0,9148 


Coeficientes de regresión y estadísticos 


Fotosíntesis Neta [g C/m? h] 


asociados 
Coef Est. EE 
Const ` -0,0809 + 0,0330 
Int. de luz 0,6863 0,0560 
Intensidad de luz [kWatt/m“] 
5.1. ¿Qué unidades tiene Bo? 
Watt | 0 a. gC /kWan o 
m? mh! m? l 
p. gC f : : e. EC y 
m2h kWatt h 
kWatt gC o. f. no tiene unidades ES, 
m?h 
5.2. ¿Cual de los siguientes es el menor nivel de significación con el cual es 
rechazada la hipótesis nula ßo 2 0? 
a. 0,005 O č A405 O 
b. 0,01. o e. -0,95 y o 
ca 0025 © Ls 2,45 O 
5.3. ¿Qué significa la hipótesis nula puesta a prueba en el punto anterior? 
a. En la oscuridad, la O d. Existe una relación O 
fotosíntesis neta promedio estadística positiva entre 
de los cultivos de trigo es la fotosíntesis neta y la` 
negativa. , l intensidad de luz 
b. A medida que disminuye la o. e. La fotosíntesis neta O 
intensidad de luz los promedio aumenta con la 
cultivos de trigo pierden © l intensidad de luz. 
carbono. 
c. En promedio, los cultivos de O f. En promedio, los cultivos de © 
trigo pierden carbono en la oo l trigo no pierden carbono en 
oscuridad la oscuridad 
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Probabilidades de cola izquierda de la distribución normal Standard. 
Valores de z negativos | 


CIS PR RB A 0 A OO E OA 
Sr 
23 


-27 | 0.0026 | 0.0027 
25 | 0.0036 | 0.0037 


0.0048 
0.0064 
[723 [0.0084 | 0.0087 | 0.0089 | 0.0091 | 0.0084 | 0.0096 | 0.0086 | 0.0102 | 0.0104 | 0.0107 | 


09 [01611 | 0.1636 | 0.1660 | 0.1686 | 01711 | 0.1736 | 01762 | 01788 | 01814 | 01841 
[08 (0.1657 | 0.1804 | 0.1922 | 0.1949 | 0.1977 | 0.2008 | 0.2033 | 02061 | 0.2090 | 0.2170 
os (02451 | 0.2483 | 0.2514 | 0.2546 | 0.2578 | 02611 | 02645 | 02676 | 0.2708 | 02743 
0.5 [02776 | 0.2810 | 0.2843 | 02877 | 02912 | 0.2945 
0:47 0.3121 | 0.3156 | 0.3102 | 0.3226 | 0.3264 | 0.3300 | 0.3336 | 03372 | 0.3409 | 03446" 
0.3557 
[00 [04641 04681 (0.4721 | 04761 | 0.4801 | 0.4840 | 0.4680 | 0.4920 | 0.4960 | 0.5000 | 


Ejemplo de uso: 


„ Para encontrar la probabilidad de que z sea menor a—1.36 encuentre en las filas el valor —1.3 y en las 
columnas el.valor 6. La probabilidad de esa celda es el valor buscado. P(z < -1.36) = 0.0869. 
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Probabilidades de cola izquierda de la distribución normal Standard. 
Valores de z positivos 


IO 


E AE 
oo 0 
o 0.5714 
[0.2 | 0 0.6026 
0.6255 | 0.6293 0.6406 0.6480 
0.6772 0.6844 
—o.s | 0.6915 | 0.6950 | 0.6985 | 0.7019 | 0.7054 | 0.7088 | 0.7123 
0.5 [0.7267 | 0.7201 | 0.7324 | 0.7357 0.7454 
0.7580 | 0.7611 0.7764 
o.s | 0.7881 | 0.7910 0.8051 
os | 0.6159 | 0.6186 
0.8413 | 0.8438 | 0.8461 | 0.8485 | 0.8508 
0.8665 | 0.8686 
0.8849 | 0.8869 | 0.8888 
0.9032 
0.9192 | 0.9207 | 0.9222 | 0.9236 | 0.9251 | 0.9265 | 0.9279 | 0.9292 | 0.9306 | 0.9319 | 
| 1.5 | 0.9332 | 0.9345 | 0.9357 | 0.9370 
0.9452 | 0.9463 | 0.9474 | 0.9484 | 0.9495 
0.9564 
0.9726 | 
0.9778 
0.9626 
0.9861 
0.9893 
0.9918 
9043 | 0.9945 0.995: 
| 2.6. | 0.9953 | 0.9955 | 0.9956 7 | 0.9960 | ; 
0.996 8 
0.997 


998 


Ejemplo de uso: 


Para encontrar la probabilidad de que z sea menor a +1.36 encuentre en las filas el valor 1.3 y en las 
columnas el valor 6. La probabilidad de esa celda es el valor buscado. P(z < +1.36) = 0.9131. Si se desea 
encontrar la probabilidad de que z sea mayor a +1.36, reste a 1 la probabilidad encontrada anteriormente: 


P(z>+1.36)= 1 — 0.9131 = 0.0869. 
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Probabilidades de cola derecha de la distribución / de Student 


6.314 


12.705 


31.821 


63.657 


636.619 


2.920 


4303 | 6.995 | 9.925 | 31.598 


2.353 


3.182 


2.192 | 
2.015 


2.776 


2.571 


4.541 


5.841 


12.924 


3.747 


4.604 


8.610 


3.365 


4.032 


6.809 


1.943 


2.447 


3.143 


3.707 


5.959 


1.895 | 2.365 


3.499 


1.860 


1.761 
1.753 


2.306 


2.160 
2.145 


1.383 2. 

i 1.812 | 2.228 | 2.764 
1.363 1.796 | 2.201 | 2.718 
í. 1.7821 2.179 | 2681 | 3.055 | 4.318 


2.650 
2.624 
2.602 
2.583 
2.507 


3.355 


3.169 
3.106 


3.012 
2.977 
2.947 
2.921 


4.437 


4.221 
4.140 
4.073 
4.015 


0.127 


0.256 


0.127 


0.256 


0.127 | 0.256 


0.256 
[0.256 

0.256 | 0.389 
0.256 | 0.389 


1.310 | 1.697 
1.303 | 1.684 


1.296 | 1.671 | 2.000 | 2.390 
1.289 | 1.658 | 1.980 2.358 | 2.617 | 3.373 


1.960 | 2.326 | 2.576 | 3.291 
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| 


12.83 
17.53 


5.99 


6.25 
7.78 


9.24 
10.64 


12.02 


0.050 | 0.025 | 0.010 | 0.005 | 
14.07 


Probabilidad 


13.36 
14.68 
15.99 
17.28 


2.71 
4.61 


3.79 
6.74 


7.29 
8.56 


10.75 


12.03 
2.24 | 13.29 


3.44 


Probabilidades de cola derecha de la distribución £ 
14.53 


4.63 


5.99 
11.03 


a. [ 0.200 | 0.150 | 0.100 | 
2.07 


CIR 

(3 | 464 | 532 | 
EN l 

ES] 

6| 

Ea 


w] re eee eee 
O|T| MN © 
hadí č zdí č ll ih 


pe 


| co 


NINI NENEN] eo o om 
O| T: | N| Yi | 10 Oo Ni © o|o 
Ni NINI N] N) N N] NIN) N] 09 


91.95 


88.38 


104.21 


116.32 


51.81 


85.53 


| 85.53 | 
| 107.57 | 07.57 


93.11 


9.71 


17.21 
8.16 
8.97 
0.41 
01.05 


+i O OINO 
o o 
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